在b站看貪心學院最後一節課從BERT到XLNET的分享
上面PPT可以看到
1.XLNET是Autoregressive模型而BERT是Auto-encoding模型,兩種模型的對比解釋見https://blog.csdn.net/qq_33876194/article/details/98943383
2.XLNET不同於BERT中的self Attention而使用Two-stream Self Attention和Permutation Language Model
https://blog.csdn.net/triplemeng/article/details/94437324
1.ELMO的缺點不是一個真正的雙向,不能同時考慮兩邊 優點是一個訓練和測試都一致的模型
2.BERT的缺點是訓練和測試不一致,並且不是一個完備的概率函數模型,兩個mask是假設獨立的 優點是真正的雙向模型
3.因此我們要綜合上面的優缺點設計一個滿足兩個模型的優點並且沒有上述兩個模型的缺點