Want+'22 English Contrastive Learning Can Learn Universal Cross-lingual Sentence Embeddings (EMNLP 2022)

 

まとめ

cross-lingual transfer シリーズ for 文埋込
  • 英語データで対照学習を行うことで,他の言語の多言語文埋込の学習も行えることを実験的に示した.
  • 設定
    • pre-trained model: XLM-R(多言語のエンコーダ)
    • 対照学習:
      • 設定1:英語 Wikipedia (Unsup. SimCSE と同じ)
      • 設定2:英語 Wiki + 英語 NLI (Sup. SimCSE と同じ)
      • 設定3:多言語 NLI データ(Sent1, Sent2 は entailment or contradiction の関係,but Sent1 と Sent2 は異なる言語)
    • Tatoeba 等の retreival, XSTS で評価
  • 結果
  • XLM-R → 設定1 or 2 or 3 で fine-tuning すると性能向上 特に,英語データのみで(設定1, 2)学習しても性能向上が見られた,なんなら設定2の方が対訳ペアを使う既存研究モデルよりも高い性能が見られた
    • → 英語データだけでも多言語文埋込を構築できるでは,という主張
  • tatoeba について言語ごとに性能を見てみると
    • 対訳データを使うモデルではデータセット量が豊富なデータについては性能が向上していたが,低リソース言語ではそこまで性能のゲインはなかった.一方で,英語データ only (特に NLI supervision) を入れた場合だと低リソース言語でも性能のゲインが見られた(これは結構面白い知見)
    •  

感想

  • 英語だけで多言語文埋込作れちゃうのは面白い話だった.(もちろん,ベースとなるモデルは多言語モデルであることは必須)
  • ちょっと実験が甘い?
    • Unsupervised 設定でも,英語だけではなくて他の言語も全部混ぜた設定でもやってほしい.
      • (英語 only である程度サチっているのか,他の言語を入れるとやっぱりまだ良くなるのか,というところをみたい)
    • 既存モデルとの比較の数字はそんなにあてにならない気がする.ベースとなる設定が違うので.
      • 提案手法:XLM-R ベース
      • 既存手法(LaBSE など):多分 pre-trained モデル自体はなくて,最初から MLM などを混ぜながら学習しているはず.LaBSE の設定(対訳データを使う学習)を XLM-R ベースでやらないと,そもそも XLM-R の元々の埋め込みがいい感じなのか,学習設定が良いのか,という比較ができないな気がする