臉書採用無監督機器學習提供翻譯服務

【概要】臉書公司開始使用無監督機器學習來爲其用戶提供翻譯服務。

由於缺少從一種語言到另一種語言的很多翻譯示例——例如從英語到烏爾都語(Urdu),Facebook(臉書)公司已經開始使用無監督的機器學習來翻譯其平臺上的內容。

Facebook人工智能研究院(Facebook AI Research,FAIR)巴黎實驗室的主任Antoine Bordes表示:該方法由FAIR設計,並由FAIR和Facebook的應用機器學習部門合作用於其平臺。在實驗中,該方法的表現與經過10萬次翻譯訓練的有監督模型相當,並且在翻譯示例很少的情況下,其表現優於Facebook的語言匹配系統。Bordes說:“當你處理像英語到烏爾都語這樣的案例很少的翻譯任務時,我們系統的表現超過了有監督的系統。因此,在沒有足夠數據的時候,訓練無監督系統比有監督系統更好。”

由Facebook人工智能研究人員Guillaume Lample和Marc'Aurelio Ranzato領導的這項工作的成果將於今年秋季在EMNLP 2018上公佈。作爲FAIR的一名老員工,Bordes表示這項研究是他見過的最好的翻譯系統。Bordes說:“我們現在可以去一個使用未知語言的星球—或者說,跟外星人交談—你可以嘗試對他們所說的內容進行合理的翻譯。你也可以從一本古老的手稿上找到尚未破譯的語言,你可以真正瞭解它的含義,因此這項工作真的在這些方面取得了突破,而這就是我如此興奮的原因。”

與FAIR的其他項目一樣,該AI系統將是開源的,可以在GitHub上下載。今年早些時候,Facebook將Translate做了開源,這是目前Facebook用來輔助翻譯的人工智能系統。Translate等系統需要大量的標記數據。例如,完成從法語到英語的翻譯需要數百萬個樣本句子來創建一個能夠理解這兩種語言的系統。因此,在缺少翻譯示例時,翻譯工作是非常困難的。

當前用於處理這種案例的人工智能系統結合了三個要素:逐字翻譯、語言模型和反向翻譯。逐字翻譯的訓練原理爲:根據一個句子中某個字的前面五個單詞和後面五個單詞來推測其上下文含義,然後對該單詞進行預測。這個嵌入詞語的方法是在2017年秋天Lample和Ranzato共同撰寫的一篇論文中提出的。然後,使用大量數據(如書籍或其他書面文本)訓練的語言模型被用於按照英語或烏爾都語使用者能夠理解的結構來安排句子。最後,使用反向翻譯來改進通過逐字翻譯和語言模型獲得的翻譯結果。這些方法並不新鮮,但三者的結合的確是有效的。

Bordes稱:“使用這兩個系統,並在兩種語言之間進行雙向翻譯,我可以將它們進行同時訓練以獲得相互促進,所以真正核心思想是使用這些詞語(翻譯模型),利用該語言模型做第一次翻譯,然後用反向翻譯的方法嘗試進行改進。”

Facebook將在未來探索將這種人工智能系統用於其他形式的翻譯,但需要更多的數據,並需要與專業翻譯人員合作來驗證結果。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章