從Transformer、BERT到GPT2和XLNet：高端玩家如何用論文互懟

這篇文章源於和實驗室同學喫飯時的一次聊天，當時就覺得很有意思，就順便寫下來了——

自然語言處理的歷史源遠流長，不過這篇文章要講的故事得從機器翻譯說起

衆所周知，谷歌的機器翻譯一直是業內標杆，追求者衆，但是谷歌顯然慾求不滿

於是在2016年上線了全新版本的神經網絡翻譯系統，而這個系統就是基於RNN全家桶的，畢竟RNN的優勢就在於能處理變長序列並且自帶序列位置信息

然而剛到2017年，Facebook的FAIR（Facebook AI Research）實驗室發了篇論文，名叫《Convolutional Sequence to Sequence Learning》，這篇論文上來就說：

恕我直言，RNN無法並行處理，訓練速度慢，絕非正道，而我這個基於CNN的端到端訓練的新模型，完全捨棄了RNN，速度快，效果好：

谷歌看完這篇論文尋思着不對勁啊，機器翻譯啥時候輪到你這個小老弟來說話了？

於是立馬就在2017年6月份在arxiv上發表了一篇非常標題黨的論文，叫《Attention is All you Need》，這麼狂拽炫酷的論文標題吸引了無數喫瓜羣衆，可謂是賺足了眼球，大家下下來一看，原來谷歌提出了一個叫Transformer的新模型，傲嬌的谷歌在這篇論文裏表示：

哼，就算RNN不好，我也不用你家的CNN，我有新模型啦！

這個模型長這樣：

簡單來說，就是用了自注意力（self-attention）+多頭注意力（multi-head attention），同時由於失去了RNN的位置信息，特地加上了位置嵌入（positional encoding）

實際上谷歌和Facebook這兩篇論文都用了注意力機制（attention mechanism），而他們也不是最早提出這個機制的，只不過谷歌用這個爆炸性的標題，徹底帶火了注意力機制

話說回Transformer，像這樣獨立於RNN和CNN的主流模型之外的~~妖豔賤貨~~ 新品種，就註定會給NLP帶來~~腥風血雨~~深刻的變革。而谷歌在多年之後也絕不會想到，這個曾經在和Facebook的較量之中提出的模型，會把戰火蔓延到NLP的各個領域…

時間來到2018年，最初，OpenAI發表了一篇名爲《Improving Language Understanding by Generative Pre-Training》的論文，這篇論文提出的模型叫GPT,用了Transformer提取特徵，跑了12項NLP任務，在9個任務中都達到了最佳：

結果8月份AllenAI在NAACL發表了一篇論文，名爲《Deep contextualized word representations》，這篇論文喜提NAACL最佳論文獎，提出的模型名爲ELMo，ELMo表示：

GPT用的是單向語言模型，不如我這個雙向LSTM語言模型，並且我在6個NLP任務中都達到了最佳效果

然而人家ELMo還沒笑夠，10月份的時候谷歌就又發了一篇論文，名爲《Pre-training of Deep Bidirectional Transformers for Language Understanding》，這篇論文跳出來說：

ELMo其實是淺層的雙向LSTM語言模型，提取特徵的能力不行，不如我這個用Transformer來提取特徵的模型BERT，順帶證明了雙向模型比單向的更好。BERT的效果很好，好到刷新了11項NLP任務的記錄，被稱爲史上最強の模型：

本來呢，AllenAI提出ELMo大家也沒覺得有啥，結果谷歌非得碰瓷，把新模型叫BERT，爲啥說碰瓷呢，因爲ELMo和BERT是美國一部家喻戶曉的動畫《芝麻街》裏的人物（我小時候好像還看過）：

而BERT前腳剛落地，百度立馬就帶着自己的模型ERNIE跟上來了，這個模型以詞爲單位在海量數據上進行訓練，解決了中文裏很多單獨的字沒有語義的問題，因此在中文數據集上表現優越，有的甚至比BERT還好。

這個模型全稱叫“Enhanced Representation through Knowledge Integration”，大夥還在困惑這特麼是怎麼縮寫成ERNIE的呢，這時八卦星人一語道破：

ERNIE是上圖那個頭髮炸毛的圓臉憨蛋，也是《芝麻街》裏的人物。。。

wtf，又是一個碰瓷的。
芝麻街：

~~（論取名的重要性）~~

BERT一出，可憐的ELMo立馬被埋沒了，但是前面被他倆混合雙打的OpenAI不服啊，到2019年2月份就提出了GPT2.0，這次的2.0版本模型更深，訓練數據更多，參數高達15億，儘管BERT說雙向模型更好，但是死傲嬌GPT2.0說不聽不聽我不聽，仍然堅持用單向語言模型，而且在9項NLP任務上都刷新了前面的記錄，GPT2.0表示：

前面說單向模型不好的出來捱打，我偏要用單向模型，我堆參數上去照樣比你們好

（上圖出自李宏毅對上述幾個模型的講解視頻，OpenAI沒有開源GPT2.0，暗示GPT2.0是NLPers得不到的女人:D）

言歸正傳，眼見各路神仙打架，在一旁喫瓜的微軟微微一笑，默默掏出了手中的模型MASS（Masked Sequence to Sequence Pre-training），不僅超過了BERT和GPT，而且還是在機器翻譯領域效果顯著：

谷歌那個氣啊，6月份立馬放出新模型XLNet，這個新模型好到在20項NLP任務上都達到了最優，這次公衆號小編們終於明白了一個道理：

沒有最強，只有更強…

喫瓜羣衆們心想，他們這麼刷記錄，總有一天會刷到天花板的吧，Facebook聽到後表示：

沒錯，天花板是有的，but, not today

然後轉身告訴谷歌，我們幫你重新訓練了下BERT，效果更好了…

於是喫瓜羣衆發現2019年7月26日這天，arxiv上多了一篇論文《RoBERTa: A Robustly Optimized BERT Pretraining Approach》，BERT再入神壇，FB事了拂衣去，深藏功與名

真的是相愛相殺。。。

總結

最後談下個人看法吧，從18年以來，NLP真的是光速發展，整個領域可以說是日新月異，看了一些大佬的文章，覺得未來Transformer會比RNN和CNN有更廣泛的應用前景，畢竟RNN不能並行訓練是個硬傷。
另一方面，個人覺得現在的NLP領域是點歪技能樹了。。。最新的NLP模型都在朝通用、大一統的模型發展，然後用通用的語言模型去做各種各樣的NLP任務，這個趨勢沒問題，但是現在的新模型都在堆更深的網絡、用更大的訓練數據（高達數十億），也導致了更多的參數量（也有十幾二十億）和更長的訓練時間。~~氪金玩家（大誤）~~ 大公司們這麼玩也沒問題，畢竟無腦堆TPU集羣增加算力就能縮短時間，但是~~平民玩家~~ 我們普通人真的是肝不動啊。。。
但願以後能有小而精的模型出現，並且能有自己特定的應用場景，現在光是活着就已經竭盡全力了啊。。。

從Transformer、BERT到GPT2和XLNet：高端玩家如何用論文互懟

總結

Python 潮流週刊#50：我最喜歡的 Python 3.13 新特性！

Library vector Type

從Transformer、BERT到GPT2和XLNet：高端玩家如何用論文互懟

對CSDN產品更新的一些想法

粒子羣算法（PSO）示例的C++實現

Latex英文論文模板彙總（elsevier、arXiv、IEEE Access）

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結