百度發佈新模型ERNIE-GEN

5月20日,百度Wave Summit 2020深度學習開發者峯會上,ERNIE發佈全新的語言生成預訓練模型ERNIE-GEN,解決自然語言處理領域“生成”方向的難題,讓機器不但能“理解”人類的意思,還能完成更高階的“表達”。這項工作在4類語言生成任務,5項國際權威英文數據集上均取得SOTA。

此外,還被AI頂會IJCAI 2020收錄。

在自然語言處理領域中,語言理解(NLU)和語言生成(NLG)是兩大核心任務。百度發佈的ERNIE-GEN預訓練模型指向語言生成(NLG),這聽起來很晦澀,實際上並不陌生。回顧一些經典科幻電影,比如《終結者》、《黑客帝國》中描述的未來機器人,他們能夠流暢地實現和人類對話,這就是一個自然語言生成系統。日常生活中,手機輸入法的聯想詞、對答如流的智能音箱、問答機器人等,都是常見自然語言生成領域問題。

可見自然語言生成技術非常重要,針對性地進行預訓練模型的研發,也成爲這個領域重要玩家的共識。從 2019 年以來,Google、Facebook、微軟等先後發佈了多個針對自然語言生成的預訓練模型,取得了一定進展。百度2019年3月推出預訓練模型ERNIE,7月升級到ERNIE2.0。

之前,領域內的預訓練模型主要關注於語言理解類任務,在生成任務上還處於探索階段。如以BERT、ERNIE爲代表的語言理解預訓練模型在理解方面取得了許多突破,然而,對於序列到序列的自然語言生成任務,這些主流方法並未帶來明顯改進。早期如微軟MASS和UniLM等工作在下游生成任務上取得了顯著提升,但仍有問題亟待解決。

本次在ERNIE基礎上推出的語言生成預訓練模型ERNIE-GEN,針對之前工作中語言生成任務的核心難題,提出了多項創新方法,基於multi-flow機制,模型可以生成完整語義片段,顯著提升了自然語言生成的任務效果。

ERNIE-GEN 首次將短語、實體的預測引入生成預訓練中。這種機制借鑑了人類寫作的構思過程,使模型具備了語義完備短語生成的能力,如直接生成“New York”(而非“New”和“York”)。

此外,傳統的自迴歸生成模型當前詞的生成強依賴於上一個詞,這種有偏的學習方式會在上文生成質量不佳時,導致後續的錯誤累積。ERNIE-GEN 提出Infilling生成機制並和噪聲增強策略相結合有效緩解了這種生成過程中的錯誤累積。爲了實現上述機制,ERNIE-GEN基於transformer設計了multi-flow attention結構。

最終據實驗結果顯示,ERNIE-GEN 在文本摘要生成、問題生成、多輪問答和對話4類生成任務的5個公開數據中,均取得了SOTA效果。

目前,ERNIE-GEN的英文預訓練模型已開源,而基於更大規模預訓練數據集的ERNIE-GEN也正式發佈於:

https://github.com/PaddlePaddle/ERNIE/

ERNIE-GEN已應用於內部新聞標題生成等業務,未來還將支持機器翻譯等更多類型的生成任務。

論文鏈接:https://arxiv.org/abs/2001.11314

項目地址: https://github.com/PaddlePaddle/ERNIE

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章