TC-ResNet

原創

2020-07-02 04:04

原創: [email protected]
時間: 2020/04/14
參考: 實時語音喚醒

文章目錄

1.1 KWS系統中的主要的問題

0x02 提出了哪些創新點

0x03 時間卷積 TCN

0x04 實驗

0x00 Paper

paper: Temporal Convolution for Real-time Keyword Spotting on Mobile Devices v1

code: hyperconnect/TC-ResNet

實時 KWS
在移動端
使用了時間卷積 TCN
MFCC作爲網絡的輸入
推理速度很快
開源了代碼並提供了基準模型
叫做TC-ResNet

0x01 爲了解決什麼問題

1.1 KWS系統中的主要的問題

高準確率
低延時
- 作者測試了真正的延遲性
  - 將考慮內存損耗和不同平臺的因素
- 之前的方法通常使用延遲作爲推理時間的指標
- 而延遲時間的指標往往選擇網絡執行的乘法和加法的計算量或者網絡的乘法次數
- 忽略了內存成本和不同平臺的因素

0x02 提出了哪些創新點

2.1 提出了TC-ResNet

一個在移動端具有更快（385倍速度提升）更高準確率的實時KWS
在這個 Google Speech Commands Dataset 上比現有的CNN-KWS效果更好

2.2 開源了項目代碼和測評的基準

https://github.com/hyperconnect/TC-ResNet

2.3 時間卷積 TCN

提高了性能並且減少了計算量
與2D 卷積相比

0x03 時間卷積 TCN

3.1 痛點

小核CNN難以同時獲取高頻和低頻信息
計算量大

3.2 2D to 1D

首先音頻數據轉成MFCC, MFCC作爲網絡的輸入
- t-f 圖， t ：time f：feature
TCN 把MFCC轉成了時間序列數據，而不是image
- t*f*1 —> t*1*f
- 把MFCC的維度當成通道數

3.3 優點：

具有更大的感受野
計算量減少

3.4 網絡結構

沒有biases
bn的作用是 scale & shift
使用了ResNet結構
- 卷積核是m1 而不是 33
- 第一層m爲3，其他層m爲9
有使用一個寬度係數 width multiplier
- 用來增加或者減少每一層的通道數
- 比如原來是{16, 24, 32, 48} ，係數爲1.5 就變成了{24, 36, 48, 72}，命名方式爲TCResNet8-1.5

0x04 實驗

4.1 數據集

Google Speech Commands Dataset
用文件的hash值進行分類，train/val/test 爲 8:1:1
增強方式
- 隨機shift
- 加噪聲

4.2 評估方式

accuracy
ROC

4.3 測評指標

準確率
FLOPs
inference time
參數總數

4.4 作者提供

models
- 據說Res 15 效果最好
tf lite models
TensorFlow Lite Android benchmark tool
- 判斷推理時間的好壞

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

SMALL-FOOTPRINT KEYWORD SPOTTING ON RAW AUDIO DATA WITHSINC-CONVOLUTIONS

原創: [email protected] 時間: 2020/04/15 文章目錄0x00 Paper0x01 爲了解決什麼問題0x02 提出了哪些創新點2.1 提出了一個更加節能的神經網絡2.2 使用了SincCo

2020-07-02 04:04:53

stream_kws_cnn

文章目錄0x00 parser 超參傳入0x01 數據預處理0x02 model 此處選擇 CNN2.1 輸入( 此處 flags.preprocess = mfcc)2.2 輸入增維2.3 構建網絡2.3.1 stream()函

2020-07-02 04:04:53

CENet-GCN (2019年)

2020-04-19 01:15:07

SMALL-FOOTPRINT KEYWORD SPOTTING ON RAW AUDIO DATA WITHSINC-CONVOLUTIONS

原創: [email protected] 時間: 2020/04/15 文章目錄0x00 Paper0x01 爲了解決什麼問題0x02 提出了哪些創新點2.1 提出了一個更加節能的神經網絡2.2 使用了SincCo

2020-07-02 04:04:53

stream_kws_cnn

文章目錄0x00 parser 超參傳入0x01 數據預處理0x02 model 此處選擇 CNN2.1 輸入( 此處 flags.preprocess = mfcc)2.2 輸入增維2.3 構建網絡2.3.1 stream()函

2020-07-02 04:04:53

An End-to-End Architecture for Keyword Spotting and Voice Activity Detection《端到端框架的語音喚醒詞識別檢測》

Abstract 我們提出了一個單一的神經網絡架構來完成兩項任務：在線關鍵詞發現和語音活動檢測。我們開發了一種新的推理算法，用於使用Connectionist臨時分類損失函數訓練的端到端遞歸神經網絡，該模型使我們的模型無需重新訓練即可在

图灵与对话

2020-06-17 06:59:05

CENet-GCN (2019年)

2020-04-19 01:15:07

Convolutional Recurrent Neural Networks for Small-Footprint Keyword Spotting 卷積遞歸神經網絡的小腳印關鍵詞發現

图灵与对话

2020-02-21 12:57:38

Attention-based End-to-End Models for Small-Footprint Keyword Spotting基於注意的小腳印關鍵字點對點模型

图灵与对话

2020-02-21 12:57:38

A FAR-FIELD TEXT-DEPENDENT SPEAKER VERIFICATION DATABASE AND THE BASELINES

图灵与对话

2020-02-21 12:57:38

24小時熱門文章

最新文章

最新評論文章