微軟升級神經網絡合成技術,可快速合成有聲書,提高視障人士閱讀體驗

視障人士日常閱讀主要是通過觸摸盲文書籍、聽讀屏軟件、真人有聲書籍等途徑,不過,目前這幾種方式仍存在一些侷限性,盲文書“書荒”仍在,且製作成本高、閱讀時間長,讀屏軟件聲音較機械,不夠自然,而真人錄音成本較高… 現在,利用AI技術這些問題便可迎刃而解。微軟AI語音團隊一直在和中國最大的視力障礙人羣公益組織—紅丹丹合作探索AI電子有聲產品。今年,微軟智能語音產品團隊對紅丹丹旗下心目圖書館的AI語音能力進行了升級,利用微軟神經網絡語音合成技術,通過目前較爲成熟的微軟人工智能女聲“曉曉”,並訓練新的神經網絡男聲,設計出了能夠大批量文字轉語音的平臺,打造出了更溫暖、更自然的聲音。 10月9日下午,微軟語音團隊、微軟紅丹丹項目團隊和紅丹丹公益組織的負責人在接受InfoQ等少數媒體採訪時,介紹了微軟AI智能女生曉曉在紅丹丹項目中的落地最新進展。

微軟神經網絡語音合成技術打造更溫暖的聲音

對於只能通過觸摸和聽覺來感知世界的視障人士而言,閱讀是一件很奢望的事情,他們通常是通過觸摸凸凹不平的盲點來閱讀盲文書籍,觸摸完一頁書所耗費的時間是健全人的數倍。

爲了讓這些“黑暗中的行者”擁有更好的閱讀體驗,微軟AI語音團隊和紅丹丹達成了合作,探索研究利用AI技術將文字合成電子有聲讀物。2014年,微軟語音團隊幫助視障人士在 Azure 上搭建的雲端有聲讀書館——心目圖書館誕生。其主要爲盲人提供有聲書借閱服務,目前該圖書館已經覆蓋全國105所視障人士學校。

在今年的微軟駭客鬆活動中,微軟智能語音AI產品團隊對心目圖書館的AI語音能力進行了升級和技術更迭,打造出了更溫暖、更自然的聲音。據悉,新版本的AI語音體驗將在10.15日”世界盲人日“這天正式上線。

2019微軟駭客鬆“紅丹丹”項目成員

微軟亞洲互聯網工程院人工智能語音組產品總監丁秉公告訴 InfoQ ,該項目主要利用微軟神經網絡語音合成技術,通過目前較爲成熟的微軟人工智能女聲“曉曉”,並訓練新的神經網絡男聲,設計出了能夠大批量文字轉語音的平臺。

他表示,深度神經網絡的升級,是一個TTS代際的升級。區別於傳統的TTS,微軟曉曉的聲音質量、表現力更好,此外它還在聲音細節處理上具有優勢,譬如閱讀中英混合的文本更加自然、清晰,這得益於運用深度神經網絡進行混合計算,令這種合成無縫切換。

微軟亞洲互聯網工程院語音組產品經理、曉曉語音產品負責人劉越穎介紹,微軟神經網絡語音可針對不同的文章類型提供不同風格的演繹,目前能做到新聞、情感、故事、助理、客服、歷史、記錄、唱歌等8種類別的聲音。

在文字轉語音的合成速度方面,主要分爲兩種情況,一種是實時合成,在幾百毫秒內便能反饋,一般運用在智能對話、助理等場景。另一種是非實時合成場景,如對整本有聲書的長文本合成,所需時間約爲人工錄音音頻時長的1/3。

丁秉公坦言,微軟語音技術和盲文書籍在合成過程中最難的技術點在於AI對於上下文、篇章的理解上,在這方面,目前人工智能距離還無法做到像人一樣的理解能力。談到解決方案,微軟AI語音團隊主張循序漸進,先定義聲音的類型再深入實現不同情緒的自動演繹,目前,微軟採用自動標記+人工輔助標記的方法來實現不同聲音類型的選擇。

AI技術打破有聲內容生產壁壘

除觸摸盲文書籍外,很多視障人士日常還會通過讀屏軟件來進行電子閱讀,讀屏軟件的聲音較爲機械、生硬,難以產生共鳴,長時間聆聽很容易乏力,難以集中。經過本次升級後,微軟曉曉的聲音質量更高、更接近人類朗讀的聲音,在收聽效果上,會讓視障人士感覺更親切、自然。

紅丹丹視障文化服務中心執行主任曾鑫表示,一些盲人學校的孩子在聽了微軟曉曉的聲音後普遍做出了正向的反饋:比現在市場上合成的聲音自然多了,不像冷冰冰的機器的聲音,更像是人讀的,更溫暖。曾鑫認爲,更有“溫度”的聲音會幫助提高孩子們閱讀的興趣。

相比普通書籍,盲文書籍的數量只是冰山一角。因爲製作成本昂貴等問題,市面上的盲文書籍數量較少,“書荒”仍然存在,類別也不夠豐富,現藉助微軟的智能語音技術平臺,可以大批量地、自動化地的將電子書轉變爲有聲書,大大減少人力和時間成本,豐富視障人士有聲閱讀內容的來源。

電話採訪另一端,曾鑫算了一筆“賬”:

一本100頁左右的紙質書籍,譯成盲文書籍要400-500頁,製作成本在80-100元左右,成本較高。而通過雲端傳送,一本有聲書做出來之後,只需少量製作成本就可以做到無限量廣域傳播。

傳統有聲書製作需要大量真人錄音,就算有志願者獻聲可以省去錄音費用,但錄音的精力和時間成本仍無法避免。受到時間、地域、人力等各種成本限制,完成一本有聲書的錄製最快也要花上三個月,如果追求高質量的精品讀物,時間和資金成本則更高,而微軟TTS最快僅在幾百毫秒內便可完成合成,避免了傳統制作方式中存在的速度慢、成本高的問題。

“通過TTS合成方式,可以7 X 24小時無間斷合成,輸入文字後聲音就出來了,只要有文本的內容,就可以源源不斷的輸出有聲內容,這打破了有聲內容生產的壁壘“,丁秉公表示。

技術和公益更好結合

在此之前,微軟和紅丹丹已是十幾年的合作伙伴,2006年,雙方展開首次合作,微軟一直在爲其提供技術和產品支持。在微軟大中華區公益事務總監王嶺看來,微軟一直在利用自己的技術特長和紅丹丹相結合,服務視障人羣。

接下來,微軟還將和紅丹丹一起做更多探索,劉越穎透露,團隊還將嘗試挖掘具有優質聲音特質的視障人才,通過微軟的技術助其生成有聲內容,讓他們也能幫助更多人,實現自我價值。

丁秉公表示,在滿足視障人羣的學習需求之外,未來還會考慮利用智能語音技術做更多嘗試,如幫助具有自食其力能力的視障人羣更好地工作。他認爲微軟技術服務的目標羣體不只侷限在殘疾人,而應延伸到更大的有障礙人羣。

此次和紅丹丹心目圖書館項目的合作是微軟公益發起的又一次行動。

王嶺表示,公益和技術相結合,微軟一直在路上。微軟和公益組織的合作,最早可追溯到1998年。2011年6月,微軟在全球公佈了“Tech for good”理念,並在此後積極踐行。除了和紅丹丹的合作,20多年來,微軟還利用在線客服、機器翻譯、人臉識別、雲技術、大數據等技術和平臺幫助其他社會殘障人士解決所需和處理社會棘手問題,代表性的公益項目包括“ AI for Earth”(地球人工智能)計劃、微軟人臉識別應用 API 尋找兒童、爲中國發展研究基金會“智能村小”項目研發智能遠程實時教育系統等。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章