百度發佈AI同傳,詳解人工同傳與機器同傳優劣勢

上個月,由於科大訊飛“AI同傳造假”事件,AI同傳被推上輿論的風口浪尖。不過,這件事顯然並沒有影響到AI同傳技術的發展,在前些天,搜狗AI同傳首次支持國際體育賽事——中國網球公開賽。今天,百度正式公佈百度AI同傳。

在10月19日的百度大腦行業創新論壇上,雷鋒網編輯在現場就發現了百度的AI同傳。百度AI技術生態部總經理喻友平在演講時,左右兩邊的屏幕上實時呈現了中英文字幕,從現場效果來看,語音識別的準確率很高,實時的機器翻譯也做得不錯,順利支持了整個演講。

人工同傳與機器同傳的優劣勢

近年來,AI的發展對人類的職業造成很大的影響,不少領域的從業者都面臨着被AI替代的風險。據雷鋒網(公衆號:雷鋒網)瞭解,AI已經替代了一些工廠裏機械化的工作,AI同傳的推出使得原本門檻較高的同傳領域也感受到了危機。

科大訊飛“AI同傳造假”事件引發大量關於人工同傳與AI同傳的討論,不少言論抨擊AI同傳目前技術尚未達到同傳要求,要替代人類同傳還言之尚早。

AI同傳目前無法取代人工同傳,而推出AI同傳的公司也不會誇口自己要去取代人工同傳。從這場爭論中,我們其實更清楚地明白人工同傳和AI同傳各自的優劣勢。

同聲傳譯,簡稱“同傳”,是指在不打斷講話者的條件下,將講話內容不間斷的實時的翻譯給聽衆。其最大的特點在於效率高,譯文與原文間隔一般3-4秒,聽衆可以及時地獲取信息,被廣泛地應用於國際會議、外交談判等重要場合。在百度看來,目前機器同傳離人類專家的水平仍然有較大差距。尤其是在重要會議如外交、商務等場合,必須依靠人類同傳高質量、專業的翻譯完成。

不過人工同傳也有一些劣勢:

1)精力體力的挑戰:與交替傳譯不同的是,同傳需要邊聽、邊記、邊翻,同步進行,對譯員的要求極高。由於需要高度集中注意力,人類同傳一般兩人一組,且每隔20多分鐘就要換人休息,對人的精力、體力都是極大的挑戰。

2)譯出率不高:據統計,同傳譯員的譯出率一般在60%-70%左右。譯出率不高的原因,一般由於未聽清或者難翻譯,人類譯員通常會選擇性的忽略某些句子,保證總體上的準確率和實時性。(譯出率:指實際翻譯的句子個數佔演講者總句子個數的比例,比如演講者說了100個句子,同傳實際翻譯了60個句子,則譯出率爲60%。)

3)全球同傳譯員稀缺:由於苛刻的要求,全球同傳譯員稀缺,只有幾千人。與巨大的市場需求相比,人才嚴重短缺。且由於同傳譯員的稀缺性,高級同傳譯員價格不菲,一般會議難以承受。

相比之下機器同聲傳譯的優勢有:機器最大的優勢是不會因爲疲倦而導致譯出率下降,能將所有“聽到”的句子全部翻譯出來,這使得機器的“譯出率”可以達到100%,遠高於人類譯員的60%-70%。同時,在價格上也佔有優勢。

但是,機器同傳傳譯也有劣勢:受限於語音識別及機器翻譯技術,目前機器同傳的總體翻譯質量與人類相比還有較大差距。主要面臨以下挑戰:

1)語音識別錯誤:由於演講者的口音、語速以及會場的噪聲影響,語音識別通常會存在一定的錯誤率,這錯誤會在翻譯中進一步放大。例如“我們在酒店大堂見面吧”,如果“大堂”被錯誤的是別爲“大唐”,雖然只是錯了一個字,但是就會導致翻譯完全錯誤。解決這一問題,需要從兩方面下功夫,一是高質量的語音識別系統,二是具有容錯能力、高魯棒性的翻譯模型。

2)質量與時延的平衡:同傳最具魅力的地方在於其低時延,這對於人類也是一個極具挑戰性的任務。高質量翻譯和低時延之間存在天然矛盾。要想獲得高質量的翻譯,需要等待演講者更多的信息,時延就會變長。如果追求低時延,需要在演講者還未說完一句話的情況下,就開始翻譯,會損失掉一些信息,造成翻譯質量不高。這在中英、中日等詞序差異較大的語種中體現更爲明顯。

例如在漢語句子中“布什總統在莫斯科會見普京”,漢語動詞“會見”出現在句子末尾,而在翻譯爲英語時,需要將動詞”meet”提前。

人類語言中詞序的這種差異一直是人類同聲傳譯員和可靠的同聲機器翻譯系統發展的主要障礙。目前,幾乎所有的“實時”翻譯系統仍然使用傳統的全句(即,非同時的)翻譯方法,造成至少一個句子的延遲,使得譯文與說話者不同步。

3)小語種覆蓋難題:目前絕大多數的翻譯硬件,都侷限在幾個大語種範圍內。

4)讓實時語音翻譯或更大概念上的翻譯成爲一種平臺化的資源:如何讓實時語音翻譯,或者更大概念上的翻譯,成爲一種平臺化的資源,這既是各個公司產品商業化的考量,也是人工智能普惠化的終極目的。

百度AI同傳核心技術

AI同傳的核心技術是語音技術和機器翻譯技術,機器同傳利用語音識別技術自動識別演講者的講話內容,將語音轉化爲文字,然後調用機器翻譯引擎,將文字翻譯爲目標語言,顯示在大屏幕或者通過語音合成播放出來。

在機器同傳領域,百度聯合語音技術、機器翻譯技術,從語音識別、翻譯質量、時延、融合領域知識等四大方面推出了“一攬子”解決方案。

1) 高質量語音識別系統

百度語音識別是採用的基於Deep Peak 2的中英文混合建模,包1749個上下文無關中文音節和1868個上下文無關英文音節;區別於傳統的都採用上下文相關建模,基於Deep Peak 2的中英文混合建模採用的是上下文無關音素組合的建模單元,該建模單元具有數量少、泛化性能好、對噪聲魯棒等特點。具體而言,我們採用如下三個步驟實現上下無關音素建模單元的構建:

1、基於“協同發音”的一級切分,發音和聽覺領域知識check,刻畫“協同發音”導致的音素黏連物理特性;

2、基於“統計共現”的二級切分,中文N-Gram的分詞方案,同等黏連下等價於中文分詞;

3、基於數據驅動的“中英文音節”綁定和多發音標註方案,解決“B超”和“必超”、“大地”和“大D”類的問題。在模型結構方面,我們採用底層CNN+多層LSTM+一層DNN的模型結構,並且採用CTC作爲優化準則。該方案很好的解決了實際場景中遇到的中英文混合場景,同時能夠保持中文性能不降低,在國際化溝通日益頻繁引入的中文中混合有部分英文短語的場景得到良好解決。

f08f040bd057902ff095c49d83194534.png

據雷鋒網瞭解,目前,語音識別技術已經基本成熟,各家的語音識別能力相差不大。在雷鋒網看來,AI同傳的技術難點在於機器翻譯如何實現實時翻譯,以及當語音識別出現錯誤時,機器翻譯如何能夠容錯。

人工智能領域,兩種語言的“即時互譯”是一項難以攻克的技術問題,其主要原因在於源語言和目標語言之間存在較大的詞序和語序差異。百度研發了具備預測能力和可控延遲的即時機器翻譯系統,可實現兩種語言之間的高質量、低延遲翻譯。這是自然語言處理方面的重大技術突破,將對機器即時筆譯和口譯的發展起到極大地推動作用。

2) 高魯棒性翻譯模型

百度提出了“語音容錯”的對抗訓練翻譯模型,大幅提高了翻譯系統的魯棒性。一般的翻譯模型訓練,數據質量越高越好。百度提出的模型反其道而行之,根據語音識別模型常犯的錯誤,在訓練數據中有針對性的加入噪聲數據,使得模型在接受到錯誤的語音識別結果時,也能夠在譯文中糾正過來。

與傳統的方法“僞造”噪音數據不同,百度模型的創新之處在於針對語音識別系統易犯的錯誤產生噪聲數據。比如,語音識別系統將“大堂”錯誤的識別爲“大唐”,那麼這就作爲一對噪聲詞放到訓練數據中,將源語言句子“我們在酒店大堂見面吧”替換爲“我們在酒店大唐見面吧”,而保持目標語言翻譯不變“Let's meet at the lobby of the hotel.”。並將這兩個句子同時用於訓練。這樣得到的模型對於語音識別具有更強的容錯能力。 實驗結果表明,在中英方向上,該模型甚至達到與正確文本(意味着由語音識別造成的錯誤基本被修正相媲美的效果。

3) 質量與時延的平衡

爲了降低時延,人類譯員通常對演講內容進行合理預測。百度團隊借鑑人類同聲傳譯員的靈感來應對這一挑戰。然而,與人類譯員不同,該模型並不預測說話人講話中的源語言單詞,而是直接預測翻譯中的目標語言單詞,更重要的是,它把翻譯和預測融合在一個統一的“wait-k words”模型中。在這個模型中,在等待講話者開始後的第K個字,就開始翻譯。模型在每個步驟使用源語句的可用前綴(以及到目前爲止的翻譯)來決定翻譯中的下一個單詞。在上述例子中,考慮到漢語前綴“布什總統在莫斯科”和迄今爲止的英譯“President Bush”在漢語後面k=2個詞,系統精確地預測下一個翻譯詞是“會見”。在演講者還沒有說出漢語動詞之前,系統預測到布什很可能在莫斯科“遇見”某人(例如普京)。正如人類口譯員需要事先熟悉說話者的話題和風格一樣,該模型也需要從大量的訓練數據中進行訓練,這些訓練數據具有相似的句子結構,以便以合理的準確性進行預測。

該模型一個顯著的優點是其具有可調節性,達到質量和時延的平衡。用戶可根據需要指定所需的延遲時間(比如,延遲一詞或延遲五詞)。如果是法語和西班牙語這種比較接近的語言,延遲可設置在比較低的水平,因爲就算是逐詞翻譯的效果也很好。但是,對於英語和漢語這種差異較大的語言,以及英語和德語這種詞序不同的語言,延遲應當設置高一點,以獲得更高的翻譯質量。

4) 融合領域知識

人類同傳譯員在接到一個同傳任務時,都會做大量的功課,掌握所譯領域的術語詞彙、表達方式等。然而留給同傳譯員準備的時間卻很有限,一般僅有幾天的時間,在一些術語量大、晦澀難懂的領域,對人類譯員是一個極大的挑戰。

與人類同傳準備過程類似,如果能將所譯領域的資料提前教給自動同傳系統,那麼整體的翻譯質量將有非常大的提高。模仿人類同傳的準備過程,百度提出了快速融合領域知識策略。

ba13c70b3384d235b89d57c4688a78e7.png

該策略原理如下:依託百度海量的互聯網大數據,首先訓練得到通用的翻譯模型,該模型具有通用的翻譯能力;進一步的,如果接到某一個領域的同傳翻譯任務,該系統收集領域數據並在通用模型的基礎上進行增強訓練,得到領域增強模型,在該領域翻譯質量上超過通用模型;最後,將該領域術語庫加到解碼過程進行強制解碼,使得術語翻譯準確可靠。在多個領域的實驗表明,領域優化後的系統可以穩定的獲得6個百分點以上的BLEU值提升。(BLEU值是機器翻譯領域國際通用評估指標,通常1個百分點的提升即被認爲是顯著提升)。

該方法模擬人類同傳準備過程,且優勢明顯, 準備過程短,只需要將領域數據在通用模型基礎上進行訓練,數小時即可得到優化後的模型,術語詞典生效時間更是縮小到秒級,大大提升了效率。

1e0fff429c0f53a1bb471dd9cc6d44d8.png

AI同傳與人工同傳共存

在百度看來,在未來多年裏,機器和人類即時翻譯員將同時並存。人類翻譯員的專業服務仍將存在大量需求,特別是需要連貫、精準翻譯的高端場合。即時翻譯的需求很高,但人類翻譯員卻十分緊俏。因此機器的介入,能讓即時翻譯服務更加普及。該技術可打開實現會議即時翻譯、隱藏字幕等多種應用的大門,在即將到來的百度世界大會上也將現場展示。

目前的技術,機器同傳離人類專家的水平仍然有較大差距。尤其是在重要會議如外交、商務等場合,必須依靠人類同傳高質量、專業的翻譯完成。現階段,機器同傳可以作爲人類同傳的輔助手段或者有效補充,例如有大量的會議,聘請專業同傳費用太高或者沒有相關領域的同傳譯員,此時可以藉助於機器同傳完成。會議舉辦方、演講者、聽衆充分認識到機器同傳的優勢和侷限性,容忍機器犯錯,就可以達成共識,促進交流。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章