Want+'22 English Contrastive Learning Can Learn Universal Cross-lingual Sentence Embeddings (EMNLP 2022)

2023/10/25 12:032023/10/25 12:10

https://aclanthology.org/2022.emnlp-main.621/

まとめ

cross-lingual transfer シリーズ for 文埋込

英語データで対照学習を行うことで，他の言語の多言語文埋込の学習も行えることを実験的に示した．

設定

pre-trained model: XLM-R（多言語のエンコーダ）
対照学習：

設定１：英語 Wikipedia (Unsup. SimCSE と同じ）
設定２：英語 Wiki + 英語 NLI (Sup. SimCSE と同じ）
設定３：多言語 NLI データ（Sent1, Sent2 は entailment or contradiction の関係，but Sent1 と Sent2 は異なる言語）

Tatoeba 等の retreival, XSTS で評価

結果

XLM-R → 設定1 or 2 or 3 で fine-tuning すると性能向上特に，英語データのみで（設定1, 2）学習しても性能向上が見られた，なんなら設定2の方が対訳ペアを使う既存研究モデルよりも高い性能が見られた

→ 英語データだけでも多言語文埋込を構築できるでは，という主張

tatoeba について言語ごとに性能を見てみると

対訳データを使うモデルではデータセット量が豊富なデータについては性能が向上していたが，低リソース言語ではそこまで性能のゲインはなかった．一方で，英語データ only (特に NLI supervision) を入れた場合だと低リソース言語でも性能のゲインが見られた（これは結構面白い知見）

感想

英語だけで多言語文埋込作れちゃうのは面白い話だった．（もちろん，ベースとなるモデルは多言語モデルであることは必須）

ちょっと実験が甘い？

Unsupervised 設定でも，英語だけではなくて他の言語も全部混ぜた設定でもやってほしい．

（英語 only である程度サチっているのか，他の言語を入れるとやっぱりまだ良くなるのか，というところをみたい）

既存モデルとの比較の数字はそんなにあてにならない気がする．ベースとなる設定が違うので．

提案手法：XLM-R ベース
既存手法（LaBSE など）：多分 pre-trained モデル自体はなくて，最初から MLM などを混ぜながら学習しているはず．LaBSE の設定（対訳データを使う学習）を XLM-R ベースでやらないと，そもそも XLM-R の元々の埋め込みがいい感じなのか，学習設定が良いのか，という比較ができないな気がする