項目中用到的語音識別方案 硬件/軟件相關介紹

自從Amazon Alexa音箱發佈以來,各大廠家開始陸續發佈自家的音箱,完善自家的生態系統。從以前的路由器,手機到現在的音箱,一個個被認爲或曾被認爲是智能家居的入口,總會在市場上掀起一番風浪。

有幸在2018年完成了一款以語音交互爲核心功能的產品,也算跟了一場大潮,對語音方面也有些相關的探索和思考。

語音識別主要有三大組成,語義識別平臺,cpu主控,以及MIC陣列;

目前國內大的語音平臺主要有:科大訊飛,百度,思必馳,雲知聲等等很專業的廠家,也有小米,騰訊等一些互聯網玩家,還有華爲等少數幾個傳統廠家。

主控方面:主要有三類,

第一,通用的CPU,如瑞芯微的平板方案,TI的數字處理芯片;

第二,專門針對語音推出的一些新的平臺,如MT8516;

第三,專用的語音芯片,主要是大平臺廠家的根據自家的算法定製的一些芯片,百度,思必馳,Amazon都在推出或計劃推出自家的專用芯片。

MIC陣列:平臺廠家如科大訊飛有自家的MIC陣列,也有專門的硬件提供方,如聲智科技,地平線等

下面將大致介紹其每個模塊的使用:

首先,我們看一張硬件框圖:

其中有幾點需要注意的地方:

第一:MIC數量和AEC數量,是根據具體的語音處理算法來的。一般主流的是2MIC+2REF,既節省成本效果也還不錯

第二:AEC,需要從PA後端採回

在軟件方面,以Linux爲主:

第一:MIC和REF處理方面,即普通的音頻讀取方式,驅動根據具體的codec來,一般主控廠家會提供

第二:將讀取到的音頻,根據語音識別算法的格式要求封裝,一般語音識別廠家會提供對應CPU平臺的開發SDK,基本不可能提供源碼的,主要是MIC+REF的數據混合

第三:熟悉語音SDK使用,主要有幾點:

1. 配置SDK環境和資源,主要有喚醒,AEC,VAD,拾音,雲端資源等,對於VAD,拾音等模塊,可以是CPU方提供,也可以是語音識別方提供,最終的具體效果需要兩方聯合調試

2. 喚醒和識別的數據處理過程,一般來說有不同的處理方式,根據SDK要求提供相應的數據即可

3. SDK處理結果,一般爲回調方式,注意線程安全的問題。格式一般爲json,根據關鍵字段處理即可,比如返回在線音頻,tts結果,請求的文字,智能家居控制指令等等

4. 一般語音廠家會提供開發雲平臺,我們可以自行選擇相應的技能或者開發自己的技能,比如訊飛開發平臺,思必馳DUI平臺等,操作方式也類似

最後總結:

第一:VAD,拾音,AEC等聯合調試比較複雜,也最費時間,產品效果好壞主在於此

第二:在選擇語音平臺時,先考慮好自家主要需要哪些技能及後續可能會擴展的技能

第三:SDK的使用,比如線程安全,穩定性,需要長時間測試

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章