曼孚科技：AI語音交互領域常用的4個術語

原創

2019-12-04 13:04

語音交互是基於語音輸入的新一代交互模式，比較典型的應用場景是各類語音助手。

本文整理了語音交互領域常用的4個術語，希望可以幫助大家更好地理解這門學科。

1.語音合成標記語言(SSML)

語音合成標記語言的英文全稱是Speech Synthesis Markup Language，這是一種基於XML的標記語言，可讓開發人員指定如何使用文本轉語音服務將輸入文本轉換爲合成語音。

與純文本相比，SSML可讓開發人員微調音節、發音、語速、音量以及文本轉語音輸出的其他屬性。

SSML可自動處理正常的停頓(例如，在句號後面暫停片刻)，或者在以問號結尾的句子中使用正確的音調。

2.語音識別技術(ASR)

若要實現機器與人類的對話，就要經過三個步驟：聽懂、理解與回答。語音標註技術的目標就是將人類語音中的詞彙內容轉換爲計算機可讀的輸入。

語音識別技術可分爲以下四個流程：

目前，手機裏的語音助手是語音識別技術最典型的應用之一。

3.音素(phone)

音素是根據語音的自然屬性劃分出來的最小語音單位，通俗點來說其實就是人在說話時，能發出最最最最短小、簡潔的不能再分割的發音。不同的音素就是不同的短髮音，可以組成不同的長髮音，再組成詞句形成語言。

4.語音合成(TTS)

語音合成是通過機械的、電子的方法產生人造語音的技術。通俗點來說，語音合成就是讓機器模仿人類說話。即輸入一段文字，最終輸出一段語音。

語音合成技術目前主要應用在讀書軟件、導航軟件、對話問答系統等領域。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.