橫空出世一週年,百度ERNIE再奪權威語義評測5項世界冠軍


近日,全球規模最大的語義評測比賽 SemEval 2020 結果出爐,百度基於飛槳平臺自研的語義理解框架 ERNIE 一舉斬獲 5 項世界冠軍,囊括視覺媒體的關鍵文本片段挖掘、多語攻擊性語言檢測和混合語種的情感分析。

SemEval 是全球範圍規模最大、參賽人數最多的權威語義評測競賽。其由國際計算語言學協會(Association for Computational Linguistics, ACL)的 SIGLEX 主辦。自 2001 年起,SemEval 已成功舉辦十四屆,在業界和學術界具有極高影響力。此次 SemEval 將和自然語言處理領域的頂級會議 COLING 聯合舉辦。

ERNIE 是此次五項世界冠軍背後的「趁手利器」。去年,ERNIE先後完成兩版重大升級。ERNIE 1.0 提出知識增強的語義表示模型,而 ERNIE 2.0 則構建了持續學習語義理解框架,在中英文 16 個任務上超越業界最好模型

此後,ERNIE 模型再次改進,以歷史上首次超越 90 大關的成績登頂自然語言處理領域最權威的 GLUE 評測榜單。本次比賽,ERNIE 再度創新,再立戰功,奪得五項世界冠軍。

 

讓 AI 更懂「輕重」視覺媒體的關鍵文本片段挖掘

 

該任務由美國休斯頓大學、Adobe 美國研究院聯合舉辦,旨在自動挖掘海報、廣告、傳單等視覺媒體中文本的關鍵片段,對其進行重點設計,提升宣傳效果。由於人們對於同一文本重要內容的判斷不一致,在沒有唯一標準的情況下,該任務存在極大的難度。

百度 ERNIE 團隊採用多種技術手段解決這個難題:首先 ERNIE 模型作爲語義信息提取模塊,對各片段重要性進行建模;然後針對關鍵片段標準不統一的問題,設計了更貼近目標的 5 Label 的 Pairwise 損失函數;最後從數據出發構造了多種針對性的語義特徵以及數據增強策略,最終以 5 項指標全部第一的成績獲得冠軍

比賽中,主辦方 Adobe 希望將賽題的解決方案應用於 Adobe Spark,賦予其海報自動設計能力,以達到更好的宣傳效果。如下圖所示的「ERNIE」、「輕重」的黑白效果就是自動挑選的結果。百度 ERNIE 團隊採用 ERNIE 讓 AI 更懂文字的「輕重」,釋放廣大視覺設計者的勞動力,使其能夠更專注於對核心內容的設計。

此外,該項技術已應用於百度搜索,能夠動態分析出用戶查詢內容中的重要片段,使其返回更精準的搜索結果,讓百度更懂您。

 

讓世界更有 AI,多語攻擊性語言檢測

 

該任務由多個國家的研究機構聯合舉辦。其中包括了英國劍橋大學、美國 IBM 研究院、以及來自德國、丹麥、卡塔爾的多所著名大學和研究院。該任務包含了三個子任務:

第一個子任務是在對英語、丹麥語、希臘語、阿拉伯語和土耳其語等包含五種語言的社交媒體進行攻擊性檢測。百度 ERNIE 團隊構建了大規模的多語預訓練模型,充分挖掘海量的多語無監督文本,用相同的模型來學習所有語種的語義表示,使模型具備跨語言的理解和分析能力。

同時,採用 Multi-lingual Fine-tuning 的方法,利用其他語言的知識輔助建模,最終以五項語言平均分第一名的成績取得冠軍。

另外兩個任務是在英語環境中對攻擊性語言的類型和目標分別進行更加精細化的分析。百度 ERNIE 團隊通過數據蒸餾的技術,從更多無監督的網絡文本中學習多種模型的 Soft Label,分別以 F1 超過第二名 1.0% 和 4.4% 的絕對優勢取得了冠軍。

隨着網民人數的不斷增加,網民態度立場不同、文化水平及道德素質參差不齊的狀況便擺在我們面前。網絡暴力和網絡人身攻擊現象由此而生。政府、社交網站、搜索引擎、興趣社區都在大力研究如何檢測出社交媒體攻擊性行爲,幫助人們構建一個更加和諧友愛的網絡環境。百度的研究者也希望通過這一技術,能夠讓世界充滿 AI,少一些偏見。

 

讓 AI 更有情感,混合語種的情感分析

 

該任務的主辦方包括谷歌研究院、美國休斯敦大學以及印度的多所高校等。在比賽中,主辦方蒐集了源於社交網絡的語料片段,測試參賽者對於相關語料片段的情感分析能力。這些語料中都包含一種特殊的語言現象:語碼混用——即一段語料中同時混有多種語言。主辦方致力於探索時下的 AI 技術對於這一類新問題的解決能力。

不同於傳統的情感分析,隨着互聯網上的內容越來越豐富,夾雜着不同語種的內容不斷產生。這些內容中可能混合着中文、英文等多種語言。針對此類文本內容,傳統的基於單語語料的情感分類模型已經無法發揮作用。

針對此問題,百度的研究者首先利用 ERNIE 進行 Zero-Shot 情感分類。爲了充分利用多語種語料的信息,還引入了基於對抗學習的多語種模型,進一步地提升了多語種情感分析的效果。最終在印度語/英語混合任務上以 F1 值超過第二名 1.9% 的絕對優勢獲得第一。

隨着 AI 技術日新月異的發展,已經逐漸的走進千家萬戶。在解決日常生活需求之餘,讓 AI 可以更通情達理、更知性,並感知用戶的喜怒哀樂、提供貼心的服務,也是一個有溫度的 AI 應該達成的目標。百度始終希望通過 AI 讓複雜的世界有更多的貼心。

百度 ERNIE 團隊在 SemEval 2020 取得五項世界冠軍並非偶然,這得益於團隊在語義理解領域的深厚積累。目前,ERNIE 語義理解技術已廣泛地應用於百度內外多個產品和技術場景,在百度搜索、小度音箱、信息流推薦等一系列產品應用中發揮了重要作用,大幅提升了產品的技術效果和用戶體驗,逐步賦能各行各業。

賦予機器「認知」能力,是人工智能中最具挑戰的問題。自然語言處理是認知智能中的重要領域。深入理解語言,讓機器具備人類的思考和理解能力意義重大。

百度在自然語言處理領域已有二十年的積累與沉澱,具備了最前沿、最全面、最領先的技術佈局,不僅專注於前瞻技術探索,更致力通過技術應用解決實際問題。而飛槳是目前國內自主研發、開源開放、功能最完備的產業級深度學習平臺,集深度學習核心框架、基礎模型庫、端到端開發套件、工具組件和服務平臺於一體,服務於150多萬開發者,正與合作伙伴一起幫助越來越多的行業完成 AI 賦能。

點擊“閱讀原文”,即可查看ERNIE的開源代碼~

END

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章