做好語音翻譯無捷徑:語音識別是前提,實時翻譯亟待攻破

在人工智能領域,語音翻譯已經不是一個新鮮詞彙,這門技術已經廣泛應用於我們的日常生活和會議等場景中,且仍具有巨大的應用潛力等待挖掘。現在,語音翻譯技術的發展現狀如何?此前面臨的難點有所突破了嗎?今天,AI前線將通過科大訊飛AI研究院副院長王士進,來深入瞭解這一領域的進步。

語音翻譯技術現狀

“目前業內語音翻譯主流技術路線還是以語音識別+機器翻譯的級聯方式爲主,在部分場景下已經達到了實用的門檻,”王士進在採訪中透露。但用過語音翻譯產品的人應該都瞭解,在實際應用場景中,語音翻譯技術並不總是讓人滿意。王士進也坦誠,語音翻譯技術想要進一步發展,口語的不規範性、口音、方言的識別,專業領域的翻譯效果、翻譯的實時性等問題還亟待解決。

在產品層面上,目前的語音翻譯產品主要有交替傳譯和同聲傳譯兩種形態。交替傳譯類有各類翻譯機、同聲傳譯類產品,如訊飛的聽見同傳,能夠實現同步文字直播和實時翻譯。

同樣地,市面上的語音翻譯產品並不總能讓用戶滿意。以訊飛翻譯機爲例,雖然據科大訊飛稱這個產品的用戶滿意度爲99%,但在同聲傳譯等場景下,目前只能做到幫助用戶更方便地理解內容,但有時識別效果和翻譯效果還會出現一些問題。當然,這也是目前所有同傳產品所面臨的實際問題。

另外,在語音翻譯領域還有一種現象:一些公司宣稱在重大比賽項目中獲得很好的成績,準確率再創新高,等等,但當在實際場景中一應用,往往會發現效果並不是很理想,甚至會出現低級錯誤,比如在英翻中任務中,翻譯準確率會大打折扣。那麼,這是否意味着僅技術層面的完善並不代表實際應用效果一定會好?

對此,王士進表示,不同語種的翻譯效果確實會根據公司的業務發展需要進行側重優化,最終的效果也是識別、翻譯等技術共同決定的。

當然,技術可能只是一方面,另一個很重要的是“漣漪效應”。(注:“漣漪效應”是互聯網思維在覈心技術研究中的應用,用戶一旦使用,數據會送到雲計算服務器,雲計算服務器可以立即學習更新,利用漣漪效應,可以把不熟的、需要在真實環境中訓練出來的系統,真正培養出來)。這是互聯網思維在覈心技術研究中的應用。爲什麼現在的實驗室,不能提出最好的算法,主要是沒有大數據和漣漪效應。在移動互聯網下,因爲軟件免費,用戶願意花時間用這些產品,且不會產生抱怨或反抗。當推出一個不好的人工智能算法(包括圖像、語音、自然語言理解)時,就像水滴滴在水面,只有一小部分人才會用到。一旦使用,數據會送到雲計算服務器,雲計算服務器可以立即學習更新。當水波擴大到更廣泛的人羣時,系統的性能已經提高。水波的振幅就是系統的誤差。當水波擴散,振幅越來越低。當水波紋擴散到第1000萬人時,10000001個人是第一次使用這一系統,他會覺得系統很好。利用漣漪效應,可以把不熟的、需要在真實環境中訓練出來的系統,真正培養出來。在實驗室中,可以做人工智能的算法。

由此可見,高超的技術對於一個完善的用戶產品來說必不可少,但技術高超並不意味着產品體驗一定好,還需要經過不斷的漣漪效應持續迭代達到好用。

循序漸進和里程碑式突破

回首語音翻譯技術從研究到應用的過程,從最初實驗室中的設想到走進尋常百姓家,這門技術的發展實際上歷經了幾個重要的里程碑式突破,才達到如今的效果。

王士進認爲,從語音識別上來說,從上世紀80年代的GMM-HMM框架,到10年前的DNN-HMM框架,再到這兩年的Encoder-Decoder框架,語音識別效果實現了階躍式的提升,使得語音翻譯具備了很好的前提條件;而從機器翻譯上來說,從最初的規則翻譯,到後來開始產業化的統計機器翻譯,再到現在的神經機器翻譯,特別是神經機器翻譯技術,給機器翻譯帶來了巨大的提升,使得在日常口語、新聞等場景下,機器翻譯已經達到了實用的門檻。

難點和突破口

然而,語音翻譯和機器翻譯的發展並非一帆風順,即使是現在,這一領域仍然面臨着很多待啃的“硬骨頭”。

首先是識別錯誤帶來的級聯影響,包括方言、口語化等會影響識別的輸出展示和翻譯的輸入;其次是同聲傳譯中的實時性問題,如何能平衡翻譯效果和翻譯實時性是目前的一大難題。

知道問題在哪是第一步,第二步就是如何克服這些問題。這需要從這個鏈條上尋找相對薄弱的突破口。

對此,王士進認爲,做好語音識別是前提,包括方言識別、對口音的容錯、對口語化識別結果的後處理規整等。其次是漸進式解碼技術,解決翻譯實時性的問題。

案例研究:訊飛最新翻譯引擎TNMT分析

一個好的語音翻譯產品離不開一個好的翻譯引擎。現在,我們以科大訊飛最新一代語音翻譯引擎TNMT爲例,來了解語音翻譯背後的技術。

據王士進介紹,TNMT採用最強大的語音識別技術和神經機器翻譯技術,主要有語音識別-> 語音後處理-> 機器翻譯-> 語音合成級聯方式組成,目前使用業內主流的識別與翻譯級聯方式完成最終的能力輸出。

更重要的是,訊飛基於目前的語音翻譯產品形成了產品優化到技術更新的迭代閉環,有了可以依託的數據漣漪效應平臺,能夠使得效果不斷迭代優化,也是訊飛語音翻譯效果能夠不斷優化的重要保障。

上述因素加上訊飛積累的大規模訓練數據,訊飛在口語旅遊等場景達到較好的水平,爲出國旅遊輔助交流提供了便利。

未來趨勢

王士進認爲,語音翻譯技術未來的發展趨勢,一方面是在複雜環境下的語音識別,語音翻譯如果想進一步擴大應用場景,這點首先要解決好;另外,如何解決低資源語音翻譯技術難題也是一個重點,很多語種有很大的價值和前景,但是目前的資源是比較少的;最後,是端到端的語音翻譯技術,實現直接從原始語音到目標譯文的翻譯,相信這將會是未來語音翻譯的發展方向。端到端語音翻譯技術路線,是通過構造一個完整的神經網絡模型,聯合優化語音識別、識別後處理和機器翻譯,建立源語言語音信號到目標語言文字的映射關係,進而實現從原始語音到目標譯文的翻譯。這提供了一種解決語音翻譯的新思路,而且從目前看是初步可行的。一旦技術研究成功,理論上可以讓語音翻譯更準更快,未來也將爲翻譯機器性能的提升帶來極大促進。

採訪嘉賓

王士進,科大訊飛北京研究院院長、AI研究院副院長。2003 年畢業於中國科學技術大學,獲電子科學與技術工學學士學位,2008 年獲得中科院自動化所模式識別與智能系統博士學位。研究興趣包括語音信號處理、自然語言處理、智慧教育等人工智能技術,在 ICASSP、Interspeech、ACL、COLING、NAACL、Computer Speech and Language 等期刊會議發表數十篇論文,目前還擔任中國人工智能產業發展聯盟專家委員會委員、技術與產業工作組副組長。

另外,王士進博士將在 QCon 全球軟件開發大會(廣州站)分享題爲「語音翻譯技術進展及應用」的演講,對NLP和語音技術感興趣的同學可以重點關注下。

活動推薦

QCon廣州站日程上線,部分精彩內容提前劇透:

  • 語音翻譯技術進展及應用
  • 從 Darknet 到 Tensorfow: 圖像識別一站式平臺的工程實踐
  • 計算機視覺賦能無界零售(Empowering Retailing Experiences with Computer Vision)

更多人工智能、架構設計等相關實踐領域盡在QCon廣州2019,另外大會特設 NLP 相關的深度培訓課程,感興趣的同學抓緊時間向 Boss 申請報名,有任何問題請聯繫小助手魚丸,電話:13269078023 (微信同)。掃描下方二維碼,提前get乾貨信息!

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章