Pires+'19 How multilingual is Multilingual BERT? (EMNLP 2019)

2023/10/25 11:572023/10/25 12:03

https://aclanthology.org/P19-1493/

M-BERT is particularly well suited to this probing study because it enables a very straightforward ap- proach to zero-shot cross-lingual model transfer: we fine-tune the model using task-specific super- vised training data from one language, and evalu- ate that task in a different language, thus allowing us to observe the ways in which the model gener- alizes information across languages.

まとめ

mBERT の zero-shot cross-lingual transferablity について分析した走りの論文の1つ．

mBERT はある言語で fine-tuning した際に，他の言語でもそのタスクの性能が上がる zero-shot cross-linugual transfer を行えることを実験的に示した

設定

モデル：mBERT (or en-BERT)
学習&評価：ある言語で fine-tuning, その他の言語以外で評価
タスク：NER, POS

結果

単一言語で fine-tuning したときも，他の言語での性能が向上することが確認できた（画像1枚目）．ただし，語彙をシェアしていないような言語対では性能が低い場合も見られた．（画像2枚目; e.g., 英語 vs ブルガリア語ではそこそこイケる，英語 vs 日本語だと全然駄目）→ 語順などの言語的な特徴ごとにさらに分析（画像3枚目; SVO の順番が違うとそこそこ下がっちゃう，そこまでは汎化できてないのねという主張）

NER について, fine-tuning データと評価データの語彙の overlap (x軸) vs NER の F1 score を比較 (画像4枚目; 青: mBERT, 赤: en-BERT)

en-BERT (赤) は overlap 率が上がるにつれて線形にスコアが向上
mBERT (青) はスコアが上にビタっと張り付いていて，fine-tuning データと評価データの語彙の overlap に関係なく性能が良いことを確認できた（ただしオーバラップが 0% 付近で分散あり）

感想

pre-training 時のデータセット量に関する言及はなし

多分 mBERT は Wiki で学習されているので，ソコソコ揃っているという仮定が置かれている?
pre-training のコーパス量が言語ごとに偏っていると，今回のように fine-tuning / evaluation データセットのみでの議論はできないような気がする．

語族とかの見方については今後自分で実験する際も参考になった．例えば [WALS features https://wals.info/feature] など．
言語ごとの埋め込み空間を直接覗くような実験はなかった; 多分後続研究で色々と言われているはず