Want+'22 English Contrastive Learning Can Learn Universal Cross-lingual Sentence Embeddings (EMNLP 2022)
まとめ
cross-lingual transfer シリーズ for 文埋込
- 英語データで対照学習を行うことで,他の言語の多言語文埋込の学習も行えることを実験的に示した.
- 設定
- pre-trained model: XLM-R(多言語のエンコーダ)
- 対照学習:
- 設定1:英語 Wikipedia (Unsup. SimCSE と同じ)
- 設定2:英語 Wiki + 英語 NLI (Sup. SimCSE と同じ)
- 設定3:多言語 NLI データ(Sent1, Sent2 は entailment or contradiction の関係,but Sent1 と Sent2 は異なる言語)
- Tatoeba 等の retreival, XSTS で評価
- 結果
- XLM-R → 設定1 or 2 or 3 で fine-tuning すると性能向上 特に,英語データのみで(設定1, 2)学習しても性能向上が見られた,なんなら設定2の方が対訳ペアを使う既存研究モデルよりも高い性能が見られた
- → 英語データだけでも多言語文埋込を構築できるでは,という主張
- tatoeba について言語ごとに性能を見てみると
- 対訳データを使うモデルではデータセット量が豊富なデータについては性能が向上していたが,低リソース言語ではそこまで性能のゲインはなかった.一方で,英語データ only (特に NLI supervision) を入れた場合だと低リソース言語でも性能のゲインが見られた(これは結構面白い知見)
感想
- 英語だけで多言語文埋込作れちゃうのは面白い話だった.(もちろん,ベースとなるモデルは多言語モデルであることは必須)
- ちょっと実験が甘い?
- Unsupervised 設定でも,英語だけではなくて他の言語も全部混ぜた設定でもやってほしい.
- (英語 only である程度サチっているのか,他の言語を入れるとやっぱりまだ良くなるのか,というところをみたい)
- 既存モデルとの比較の数字はそんなにあてにならない気がする.ベースとなる設定が違うので.
- 提案手法:XLM-R ベース
- 既存手法(LaBSE など):多分 pre-trained モデル自体はなくて,最初から MLM などを混ぜながら学習しているはず.LaBSE の設定(対訳データを使う学習)を XLM-R ベースでやらないと,そもそも XLM-R の元々の埋め込みがいい感じなのか,学習設定が良いのか,という比較ができないな気がする