XLNet

1.克服了BERT沒有考慮文本順序的缺陷。
2.可以考慮文本內容，還是雙向的，文本的順序還是隨機的一個模型。
3.用了最先進的transformer-XL,獲得了更牛逼的性能。
它比BERT在20個任務上好，還在18個任務上實現了最好的結果。

1.作者用隨機所有句子中的順序，加上雙向lstm,從而獲得了context信息
（評價：完全摒棄了語句的順序）
2、因爲沒有mask,所以去除了pretraining-finetune-gap , 而且可以用lstm,消除了BERT的獨立性。
（我個人是不服的哈）
原來，是有一個position enccoder支撐

循環機制和Transformer-XL作爲encoding輸入到了文章中。
爲了使Transformer適應我們這種情況，我們隊transformer-XL進行了修改

這是傳統的LSTM模型的機制，用過去的信息去預測將來的信息，在文章中被稱爲AR機制，也就是auto_regressive機制；

這是BERT的模型機制，其中m的意思是被mask的信息，在文章中被稱爲AE，model,也就是autoencoding模型

在整個機制中，

INdependence Assumption: 在BERT中，每一個單詞都是假設獨立的，單獨被mask, 所以捕捉不到其中的關聯。
INPUT noise: BERT中的mask機制中的mask,會在pretrain和fine-tainne中形成語義鴻溝。
Context depencency: 更好的捕捉雙向內容。

denoising 降噪

Remark

上圖描述的是Permutation Language Modeling
其代表的意思是句子的順序是隨機採集的，而句子的連接是隨機建立的
我無法理解mem是什麼意思。

在這個過程中，因爲很可能預測的句子和實際的值是不同的，所以可以有效的學習到語義（我無法理解）
然後句子的順序是不變的，同樣attention裏面還有個mask機制

問題：
如果兩個相同的輸入集合，要預測的值不一樣，但它們的標籤都是-1，那麼就使用的公式是
爲了解決某個矛盾，所以用了雙層的transformer
第一層，encode context 和 $x_t$ 自己
第二層，然後是 $g_\theta$ 只和x_z<t 和位置信息z_t有關。

好吧，今天就先寫到這裏，這可是個大工程。

解決問題：pytorch CUDA error: device-side assert triggered

解決問題：ABSA_Keras不能使用的問題

解決問題：chainer在訓練模型的過程中，出現了nan

解決問題：python中的logging模塊，在用python調用sh,sh中調用python後不能用

解決問題：pycham想要查看註釋，跳轉到了pyi文件

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結