XLNet

1.克服了BERT沒有考慮文本順序的缺陷。
2.可以考慮文本內容,還是雙向的,文本的順序還是隨機的一個模型。
3.用了最先進的transformer-XL,獲得了更牛逼的性能。
它比BERT在20個任務上好,還在18個任務上實現了最好的結果。


1.作者用隨機所有句子中的順序,加上雙向lstm,從而獲得了context信息
(評價:完全摒棄了語句的順序)
2、因爲沒有mask,所以去除了pretraining-finetune-gap , 而且可以用lstm,消除了BERT的獨立性。
(我個人是不服的哈)
原來,是有一個position enccoder支撐


循環機制和Transformer-XL作爲encoding輸入到了文章中。
爲了使Transformer適應我們這種情況,我們隊transformer-XL進行了修改


這是
這是傳統的LSTM模型的機制,用過去的信息去預測將來的信息,在文章中被稱爲AR機制,也就是auto_regressive機制;
在這裏插入圖片描述
這是BERT的模型機制,其中m的意思是被mask的信息,在文章中被稱爲AE,model,也就是autoencoding模型

在整個機制中,

INdependence Assumption: 在BERT中,每一個單詞都是假設獨立的,單獨被mask, 所以捕捉不到其中的關聯。
INPUT noise: BERT中的mask機制中的mask,會在pretrain和fine-tainne中形成語義鴻溝。
Context depencency: 更好的捕捉雙向內容。

  1. denoising 降噪

Remark

在這裏插入圖片描述
上圖描述的是Permutation Language Modeling
其代表的意思是句子的順序是隨機採集的,而句子的連接是隨機建立的
我無法理解mem是什麼意思。

在這個過程中,因爲很可能預測的句子和實際的值是不同的,所以可以有效的學習到語義(我無法理解)
然後句子的順序是不變的,同樣attention裏面還有個mask機制

問題:
如果兩個相同的輸入集合,要預測的值不一樣,但它們的標籤都是-1,那麼就使用的公式是在這裏插入圖片描述
爲了解決某個矛盾,所以用了雙層的transformer
第一層,encode context 和 xtx_t自己
第二層,然後是gθg_\theta只和x_z<t 和位置信息z_t有關。

好吧,今天就先寫到這裏,這可是個大工程。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章