Kong+'20 A Mutual Information Maximization Perspective of Language Representation Learning (ICLR 2020)
まとめ
- Skip-gram, BERT の masked languge modeling, next setnence prediction や XLNet の permutation language modeling の objective が実は InfoNCE で統一的に説明できることを示した.どのパーツを正例同士とするか(下の表の a,b )や,エンコーダーをどのように構築するか(g_\omega, g_\phi) で整理することができる.

- また,文表現と mask された n-gram を正例としてモデルを訓練する新しい objective を提案した.GLUE で評価したときに SQuAD などで好成績を記録(が全体的には BERT とほぼ変わらず)
感想
- 確かに MLM や NSP は Contrastive Learning っぽいなと直感的には思っていたが,それを数式レベルで統一的に整理しているのはエラい
- が,本当の本当にわかった気持ちになるには [van den Oord+'18 Representation Learning with Contrastive Predictive Coding (arXiv 2018)] とかを始めに読んでおかないとちょっと厳しいかもしれない.(自分もチラチラ読み返しながらこれを読んでいた)(論文自体の問題ではなく自分の脳のキャパのせいかも)
- loss レベルでは整理できているので,難しいかもしれないが中身の関数クラスまで踏み込んだ議論ができるとさらに面白いかもしれない