從Transformer、BERT到GPT2和XLNet:高端玩家如何用論文互懟

這篇文章源於和實驗室同學喫飯時的一次聊天,當時就覺得很有意思,就順便寫下來了——

自然語言處理的歷史源遠流長,不過這篇文章要講的故事得從機器翻譯說起

衆所周知,谷歌的機器翻譯一直是業內標杆,追求者衆,但是谷歌顯然慾求不滿
在這裏插入圖片描述
於是在2016年上線了全新版本的神經網絡翻譯系統,而這個系統就是基於RNN全家桶的,畢竟RNN的優勢就在於能處理變長序列並且自帶序列位置信息

然而剛到2017年,Facebook的FAIR(Facebook AI Research)實驗室發了篇論文,名叫《Convolutional Sequence to Sequence Learning》,這篇論文上來就說:

恕我直言,RNN無法並行處理,訓練速度慢,絕非正道,而我這個基於CNN的端到端訓練的新模型,完全捨棄了RNN,速度快,效果好:

在這裏插入圖片描述

谷歌看完這篇論文尋思着不對勁啊,機器翻譯啥時候輪到你這個小老弟來說話了?
在這裏插入圖片描述
於是立馬就在2017年6月份在arxiv上發表了一篇非常標題黨的論文,叫《Attention is All you Need》,這麼狂拽炫酷的論文標題吸引了無數喫瓜羣衆,可謂是賺足了眼球,大家下下來一看,原來谷歌提出了一個叫Transformer的新模型,傲嬌的谷歌在這篇論文裏表示:

哼,就算RNN不好,我也不用你家的CNN,我有新模型啦!

這個模型長這樣:
在這裏插入圖片描述
簡單來說,就是用了自注意力(self-attention)+多頭注意力(multi-head attention),同時由於失去了RNN的位置信息,特地加上了位置嵌入(positional encoding)

實際上谷歌和Facebook這兩篇論文都用了注意力機制(attention mechanism),而他們也不是最早提出這個機制的,只不過谷歌用這個爆炸性的標題,徹底帶火了注意力機制

話說回Transformer,像這樣獨立於RNN和CNN的主流模型之外的妖豔賤貨 新品種,就註定會給NLP帶來腥風血雨深刻的變革。而谷歌在多年之後也絕不會想到,這個曾經在和Facebook的較量之中提出的模型,會把戰火蔓延到NLP的各個領域…

時間來到2018年,最初,OpenAI發表了一篇名爲《Improving Language Understanding by Generative Pre-Training》的論文,這篇論文提出的模型叫GPT,用了Transformer提取特徵,跑了12項NLP任務,在9個任務中都達到了最佳:
在這裏插入圖片描述

結果8月份AllenAI在NAACL發表了一篇論文,名爲《Deep contextualized word representations》,這篇論文喜提NAACL最佳論文獎,提出的模型名爲ELMo,ELMo表示:

GPT用的是單向語言模型,不如我這個雙向LSTM語言模型,並且我在6個NLP任務中都達到了最佳效果

然而人家ELMo還沒笑夠,10月份的時候谷歌就又發了一篇論文,名爲《Pre-training of Deep Bidirectional Transformers for Language Understanding》,這篇論文跳出來說:

ELMo其實是淺層的雙向LSTM語言模型,提取特徵的能力不行,不如我這個用Transformer來提取特徵的模型BERT,順帶證明了雙向模型比單向的更好。BERT的效果很好,好到刷新了11項NLP任務的記錄,被稱爲史上最強の模型

在這裏插入圖片描述
在這裏插入圖片描述
本來呢,AllenAI提出ELMo大家也沒覺得有啥,結果谷歌非得碰瓷,把新模型叫BERT,爲啥說碰瓷呢,因爲ELMo和BERT是美國一部家喻戶曉的動畫《芝麻街》裏的人物(我小時候好像還看過):
在這裏插入圖片描述
而BERT前腳剛落地,百度立馬就帶着自己的模型ERNIE跟上來了,這個模型以爲單位在海量數據上進行訓練,解決了中文裏很多單獨的字沒有語義的問題,因此在中文數據集上表現優越,有的甚至比BERT還好。

這個模型全稱叫“Enhanced Representation through Knowledge Integration”,大夥還在困惑這特麼是怎麼縮寫成ERNIE的呢,這時八卦星人一語道破:

ERNIE是上圖那個頭髮炸毛的圓臉憨蛋,也是《芝麻街》裏的人物。。。

wtf,又是一個碰瓷的。
芝麻街:
在這裏插入圖片描述
(論取名的重要性)

BERT一出,可憐的ELMo立馬被埋沒了,但是前面被他倆混合雙打的OpenAI不服啊,到2019年2月份就提出了GPT2.0,這次的2.0版本模型更深,訓練數據更多,參數高達15億,儘管BERT說雙向模型更好,但是死傲嬌GPT2.0說不聽不聽我不聽,仍然堅持用單向語言模型,而且在9項NLP任務上都刷新了前面的記錄,GPT2.0表示:

前面說單向模型不好的出來捱打,我偏要用單向模型,我堆參數上去照樣比你們好

在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述
(上圖出自李宏毅對上述幾個模型的講解視頻,OpenAI沒有開源GPT2.0,暗示GPT2.0是NLPers得不到的女人:D)

言歸正傳,眼見各路神仙打架,在一旁喫瓜的微軟微微一笑,默默掏出了手中的模型MASS(Masked Sequence to Sequence Pre-training),不僅超過了BERT和GPT,而且還是在機器翻譯領域效果顯著:
在這裏插入圖片描述

谷歌那個氣啊,6月份立馬放出新模型XLNet,這個新模型好到在20項NLP任務上都達到了最優,這次公衆號小編們終於明白了一個道理:

沒有最強,只有更強…

在這裏插入圖片描述
喫瓜羣衆們心想,他們這麼刷記錄,總有一天會刷到天花板的吧,Facebook聽到後表示:

沒錯,天花板是有的,but, not today

然後轉身告訴谷歌,我們幫你重新訓練了下BERT,效果更好了…

於是喫瓜羣衆發現2019年7月26日這天,arxiv上多了一篇論文《RoBERTa: A Robustly Optimized BERT Pretraining Approach》,BERT再入神壇,FB事了拂衣去,深藏功與名
在這裏插入圖片描述
在這裏插入圖片描述
真的是相愛相殺。。。
在這裏插入圖片描述

總結

最後談下個人看法吧,從18年以來,NLP真的是光速發展,整個領域可以說是日新月異,看了一些大佬的文章,覺得未來Transformer會比RNN和CNN有更廣泛的應用前景,畢竟RNN不能並行訓練是個硬傷。
另一方面,個人覺得現在的NLP領域是點歪技能樹了。。。最新的NLP模型都在朝通用、大一統的模型發展,然後用通用的語言模型去做各種各樣的NLP任務,這個趨勢沒問題,但是現在的新模型都在堆更深的網絡、用更大的訓練數據(高達數十億),也導致了更多的參數量(也有十幾二十億)和更長的訓練時間。氪金玩家(大誤) 大公司們這麼玩也沒問題,畢竟無腦堆TPU集羣增加算力就能縮短時間,但是平民玩家 我們普通人真的是肝不動啊。。。
但願以後能有小而精的模型出現,並且能有自己特定的應用場景,現在光是活着就已經竭盡全力了啊。。。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章