項目中用到的語音識別方案硬件/軟件相關介紹

原創

WindLOR

2019-01-07 15:19

自從Amazon Alexa音箱發佈以來，各大廠家開始陸續發佈自家的音箱，完善自家的生態系統。從以前的路由器，手機到現在的音箱，一個個被認爲或曾被認爲是智能家居的入口，總會在市場上掀起一番風浪。

有幸在2018年完成了一款以語音交互爲核心功能的產品，也算跟了一場大潮，對語音方面也有些相關的探索和思考。

語音識別主要有三大組成，語義識別平臺，cpu主控，以及MIC陣列；

目前國內大的語音平臺主要有：科大訊飛，百度，思必馳，雲知聲等等很專業的廠家，也有小米，騰訊等一些互聯網玩家，還有華爲等少數幾個傳統廠家。

主控方面：主要有三類，

第一，通用的CPU，如瑞芯微的平板方案，TI的數字處理芯片；

第二，專門針對語音推出的一些新的平臺，如MT8516；

第三，專用的語音芯片，主要是大平臺廠家的根據自家的算法定製的一些芯片，百度，思必馳，Amazon都在推出或計劃推出自家的專用芯片。

MIC陣列：平臺廠家如科大訊飛有自家的MIC陣列，也有專門的硬件提供方，如聲智科技，地平線等

下面將大致介紹其每個模塊的使用：

首先，我們看一張硬件框圖：

其中有幾點需要注意的地方：

第一：MIC數量和AEC數量，是根據具體的語音處理算法來的。一般主流的是2MIC+2REF，既節省成本效果也還不錯

第二：AEC，需要從PA後端採回

在軟件方面，以Linux爲主：

第一：MIC和REF處理方面，即普通的音頻讀取方式，驅動根據具體的codec來，一般主控廠家會提供

第二：將讀取到的音頻，根據語音識別算法的格式要求封裝，一般語音識別廠家會提供對應CPU平臺的開發SDK，基本不可能提供源碼的，主要是MIC+REF的數據混合

第三：熟悉語音SDK使用，主要有幾點：

1. 配置SDK環境和資源，主要有喚醒，AEC，VAD，拾音，雲端資源等，對於VAD，拾音等模塊，可以是CPU方提供，也可以是語音識別方提供，最終的具體效果需要兩方聯合調試

2. 喚醒和識別的數據處理過程，一般來說有不同的處理方式，根據SDK要求提供相應的數據即可

3. SDK處理結果，一般爲回調方式，注意線程安全的問題。格式一般爲json，根據關鍵字段處理即可，比如返回在線音頻，tts結果，請求的文字，智能家居控制指令等等

4. 一般語音廠家會提供開發雲平臺，我們可以自行選擇相應的技能或者開發自己的技能，比如訊飛開發平臺，思必馳DUI平臺等，操作方式也類似

最後總結：

第一：VAD，拾音，AEC等聯合調試比較複雜，也最費時間，產品效果好壞主在於此

第二：在選擇語音平臺時，先考慮好自家主要需要哪些技能及後續可能會擴展的技能

第三：SDK的使用，比如線程安全，穩定性，需要長時間測試

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

項目中用到的語音識別方案硬件/軟件相關介紹

首先，我們看一張硬件框圖：

在軟件方面，以Linux爲主：

最後總結：

Shell/Python中的用戶名獲取

rt-thread 自動初始化機制分析-關於編譯鏈接及段信息

嵌入式Linux架構

關於GPS的1PPS時間同步功能探索與測試

GPSD架構介紹及交叉編譯和使用

移植MT76x8 私有WIFI驅動V4.1.0.0到Openwrt 18.06所遇到的坑

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

項目中用到的語音識別方案 硬件/軟件相關介紹

首先，我們看一張硬件框圖：

在軟件方面，以Linux爲主：

最後總結：

項目中用到的語音識別方案硬件/軟件相關介紹