全新NLP標準SuperGLUE問世:語言模型集體掉“分”,BERT勉強過線

NLP領域再獲突破,Facebook AI利用半監督學習技術與RoBERTa新方法,在第四屆機器翻譯大會上拔得頭籌。隨着NLU系統發展的不斷加速,GLUE榜單開始被各大“玩家”不斷“刷分”,爲了提高NLP技術“區分度”,Facebook AI與紐約大學、DeepMind以及華盛頓大學聯合打造出SuperGLUE,爲NLP研究設置了一項更高的標準。

自然語言理解(NLU)和語言翻譯,可謂一系列重要應用的關鍵所在。在它們的幫助下,我們有望大規模識別並刪除惡意內容,並將來自世界各地且使用不同語言的人們聯繫起來。不過,雖然近年來基於深度學習的方法加速了語言處理能力的提升,但在涉及那些難以獲取大量標記訓練數據的任務時,現有系統的功能仍然相當有限。

最近,Facebook AI在NLP領域取得了令人印象深刻的突破。利用半監督與自監督學習技術,他們利用未標記數據實現了超越純監督系統的性能表現。我們在第四屆機器翻譯大會(WMT19)比賽的多個語種項目中獲得第一名,而這一切都要歸功於這種全新的半監督訓練方法。此外,我們還引入了一種新的自監督預訓練方法,即RoBERTa,其能夠在多種語言理解任務中帶來優於一切現有NLU系統的表現。在某些情況下,該系統甚至帶來了優於人類基準的表現——包括英-德翻譯以及另外五項NLU基準測試。總體來講,NLU系統的發展速度極爲驚人,並開始在不少現有基準測試當中觸及上限。爲了繼續推進最新技術的發展,我們與紐約大學(NYU)、DeepMind Technologies以及華盛頓大學(UW)合作開發出一種全新基準測試、排名PyTorch工具包,其中包含我們希望在研究中進一步推動的各項挑戰性任務。

這些新工具,將共同幫助我們創建出更爲強大的內容理解系統,其有望翻譯數百種語言並理解其中的模糊性元素、上下文參考以及常識推理等複雜問題——同時,減少大多數現有系統當中存在的、對大量標記訓練數據的嚴重依賴。

翻譯準確性迎來突破

對於神經機器翻譯(NMT)模型而言,監督訓練通常需要準備大量語句以作爲翻譯參考。然而,我們很難找到大量高質量的雙語數據,這就迫使研究人員選擇使用單語言數據。反向翻譯(半監督學習技術)能夠幫助我們在一定程度上克服這個問題。我們最近提交至WMT的內容,就建立在我們早期關於大規模抽樣反向翻譯的基礎之上,而且當時我們就藉此在去年的WMT大賽上拔得頭籌。

今年,我們又引入了一種新方法:生成多種候選翻譯內容,並選擇其中在三種不同模型分數間最爲平衡的項目作爲最優答案,以進一步改進我們的翻譯系統。這三種模型分別爲正向、反向以及流暢。正向分數考察候選翻譯結果能否準確捕捉原始句子的含義。反向分數取決於我們如何從候選翻譯當中重建原始句子。而流暢分數則衡量候選翻譯的流利程度,並通過查看大量單語數據通過自監督方式進行訓練。在對這三項評分加以平衡之後,我們即可獲得效果更好的翻譯結果。
作爲結果,與上一年相比,我們這一次將英語到德語翻譯任務的表現提高了4.5 BLEU(用於衡量所生成翻譯內容,與專業參考內容之間重合程度的指標),這無疑是一項巨大的進步。根據人類專家的評估,我們的模型在四項翻譯任務當中排名第一,分別爲:英語到德語、德語到英語、英語到俄語、俄語到英語。另據WMT大賽評委的評估,我們在英語到德語的翻譯表現上甚至已經優於人類翻譯。

上圖所示爲這項技術的基本原理:首先,正向模型會翻譯一個句子,例如從德語翻譯爲英語,並由此生成一組英語翻譯或者說假設結果。接下來,反向模型將這些英語假設翻譯成德語,並由系統評估由英語翻譯出的德語與原本的德語句子之間的對比情況。最後,語言模型對英語翻譯結果的流利程度做出判斷。

我們還將訓練擴大到規模更大的數據集當中,其中約包含由英語翻譯爲德語的約100億字文本。與去年相比,我們在半監督訓練中使用的文本總達到兩倍以上,這進一步提高了翻譯的準確率。

改進自監督的預訓練方法

我們最近對自然語言處理(NLP)領域的最大突破之一做出了優化與改進,即由谷歌公司在2018年提出的BERT,全稱爲基於雙向Transformer的編碼器表示。BERT之所以具有革命性,是因爲它證明了自監督訓練技術有可能達到甚至超越傳統標籤密集型監督方法所能實現的性能。例如,我們可以利用BERT以及相關方法推動對話式AI的前沿研究、改進內容理解系統,並改善低資源與無監督場景下的翻譯質量。

由於谷歌公司開源了BERT,我們得以複製該項目並確定設計變更,從而進一步提高其有效性。我們引入了所謂健壯優化BERT預訓練方案,簡稱RoBERTa,也正是它爲我們帶來了這一波最新的理想結果。

RoBERTa修改了BERT中的一些關鍵超參數,包括刪除BERT的下一句預訓練目標,並使用數量更多的小批量訓練配合更高的學習率。與BERT相比,我們的整體數據量增長了十倍以上。這種方法也成功在當前廣泛使用的NLP基準、通用語言理解評估(GLUE)以及通過考查的重新理解(RACE)方面取得了前所未有的好成績。

以上圖表展示了RoBERTa在各類任務中的實際結果,我們在其中預先傳輸了更長也更多的數據。可以看到,其在每一行當中都獲得了比上一行更好的結果。
憑藉着高達88.5的平均得分,RoBERTa在GLUE排行榜上名列前茅,甚至足以匹敵平均得分爲88.4的前任領先者XLNet-Large。此外,RoBERTa還在另幾種語言理解基準中提升了最新技術水平,具體包括MNLI、QNLI、RTE、STS-B以及RACE任務等。

這一成就,源自我們在發掘不依賴數據標籤的自監督系統性能與潛力方面投入的巨大努力。

NLP研究的下一個前沿

作爲衡量研究進展的行業性標準,GLUE旨在涵蓋大量NLP任務,因此在其中獲取良好成績的唯一方法就是構建起真正通用的工具,用以解決大部分新的語言理解問題。

在發佈後的一年之內,一部分NLP模型(包括RoBERTa)已經在GLUE基準測試當中超越了人類的表現。目前的模型已經提出一種令人驚訝的高效方法,能夠將大型文本數據集中的語言模型預訓練同簡單的多任務、遷移學習技術結合起來。

這種快速進步,正是大規模AI社區共同合作的結果。通過一系列NLP競賽、基準測試以及代碼發佈,如今我們終於能夠不斷加快模型複製、改進以及先進結果發佈等工作的執行速度。隨着GPT與BERT的推出,GLUE的模型性能開始急劇上升,且最近開始與人類翻譯表現發生交叉,如下圖所示:

雖然目前的模型能夠在特定GLUE任務當中超越人類表現,但其仍無法解決某些人類能夠完美搞定的任務。爲了給NLP研究設置一項更高的標準,Facebook AI與紐約大學、DeepMind以及華盛頓大學合作打造出SuperGLUE。這是一項更爲強大的基準,擁有全面的人類基準素材。我們也正在全面發佈SuperGLUE,希望幫助更多語言理解研究人員不斷推進最新技術發展。

我們在原始與最新基準的創建當中,一直與多家合作伙伴保持協作,其中紐約大學長期引領着相關努力。SuperGLUE遵循GLUE的開發思路,能夠提供可總結各項NLP任務進度的個位數指標。除了新的基準測試之外,我們還發布了用於自展研究的排行榜與PyTorch工具包。

SuperGLUE當中包含一系列相當困難的NLP任務,希望以這些側重於機器學習領域內諸多核心創新方向(包樣本效率、遷移、多任務以及自監督學習等)的任務爲基礎,幫助研究人員更好地測試自己的創造性新方法。爲了挑戰研究人員,我們選擇了多種任務類型,包含大量最先進方法尚未解決、但人類卻能輕鬆搞定的細微問題。爲了檢查這些任務,我們還爲其收集了基於BERT以及人類翻譯的基準測試數據。

這套新的基準包含八個不同且各具挑戰的任務,包括選擇合理的替代方案(COPA)——這是一項因果推理任務,系統會得到一個前提性句子,並需要從兩個可能的選項當中選出與之相符的原因或結果。值得注意的是,人類在COPA當中擁有100%的準確率表現,而BERT的準確率則只有74%。這意味着其中還存在巨大的提升空間。

我們還在其中添加了不少獨特的前沿組件,作爲模型中測量偏見狀況的診斷工具。具體來講,我們引入了Winogender,用於測試自動共參考解析系統當中是否存在性別偏見。SuperGLUE還囊括一項名爲BooIQ的問答任務,其中每個例子都包含一個簡短的段落,以及與其內容相關的是或否判斷問題;我們可以將其作爲自然問題(Natural Questions)基準測試的理想代理。


上圖所示爲SuperGLUE中的五項示例任務。粗體文本代表各任務的一部分示例格式,斜體文本爲模型輸入的部分,帶下劃線的文本是輸入中經過特殊標記的部分,而等寬字體則代表預期的模型輸出結果。
類似於GLUE,新的基準測試還包含面向語言理解任務建立而成的公開排行榜,其能夠直接使用現有數據,並附有個位數性能指標與分析工具包。

我們最近針對新的基準對RoBERTa進行了測試,並發現其性能優於全部現有NLU系統,甚至在多語句閱讀理解(MultiRC)任務中超越了人類表現。儘管如此,RoBERTa在多項SuperGLUE任務中仍與人類基準存在巨大差距,這說明即使是當今最先進的NLU系統,也仍然具有不少侷限。


爲了進一步挑戰AI系統的極限,我們還引入了第一套長篇幅問題回答數據集以及配套基準測試,這要求機器提升既長又複雜的答案——現有算法以往從未經歷過這樣的挑戰。目前的問答系統專注於解決比較瑣碎的問題,例如水母是否有大腦等。此次公佈的新挑戰,要求機器對開放式的問題做出深入解答以及詳盡闡述,例如“水母是如何在沒有大腦的情況下活動的?”現有算法在這方面的表現遠遠不及人類,而此次新挑戰的出現將促使AI整合來自不同來源的信息,從而爲開放式問題提供複雜的迴應。

本文中提到的所有工作,都只是更爲宏大的遠景規劃中的一部分,代表着迅速推進的語言處理技術的最新成果。通過發佈新的進度衡量標準,引入半監督與自監督學習新方法,同時利用更大規模的數據進行訓練,我們希望有效激發下一代創新方案的產生。相信通過這種相互挑戰的持續發展方式,NLP研究社區終將構建起更爲強大的語言處理系統。

英文原文:New advances in natural language processing to better connect people

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章