Small-Footprint Open-Vocabulary Keyword Spotting with Quantized LSTM Networks

原創

2020-04-13 17:50

原創: [email protected]
時間: 2020/04/11

文章目錄

0x04 other

0x00 Paper

paper: Small-Footprint Open-Vocabulary Keyword Spotting with Quantized LSTM Networks

code:

0x01 爲了解決什麼問題

爲了用戶能夠自定義他們自己的關鍵詞而不用retrain整個model
之前的訓練的model需要提前知道關鍵詞和固定的關鍵詞訓練集

之前的模型的損失方式有三種:

交叉熵

CTC

a max-pooling loss

0x02 提出了哪些創新點

量化LSTM的方法
設計了CTC訓練結果的置信度
提出了一個更快的解碼方式,除了pruning,比跳幀還快
和不同的方式做一個結果比較
- LVCSR
- keyword-filler
- CTC

0x03 文章body

第二節介紹了網絡架構和量化訓練的方式

第三節介紹了關鍵詞檢測機制,置信度和優化器設置

第四節介紹了實驗相關

第五節介紹了實驗的結果

3.1 第二節 ACOUSTIC MODEL

第一部分：多層LSTM
- 輸入五幀連續的MFCC特徵，每三幀比較一次
第二部分：量化
- 量化的靈感來源：
  - B. Jacob, S. Kligys, B. Chen, M. Zhu, M. Tang, A. Howard, H. Adam,
    and D. Kalenichenko, “Quantization and training of neural networks
    for efficient integer-arithmetic-only inference,” in Proceedings of the
    IEEE Conference on Computer Vision and Pattern Recognition, 2018,
    pp. 2704–2713.
- 權重在訓練之後被量化，量化範圍爲最大值或者最小值的2的n次冪
- 激活函數在訓練期間被量化，固定的範圍
  1. 因爲LSTM通常包含了飽和的激活函數，範圍在（-1,1），輸入也是固定，設爲（-4,4）
    
    Using the same fixed range for all activation
    function inputs and outputs allows to have a single lookup
    table at inference for the sigmoid and the tanh functions,
    making the model faster to execute.
  2. LSTM 包含了很多的額外項，量化參數相同更方便量化操作
  3. 內部狀態 $ c_t $無界，沒經過一個step自動加1。如果使用最大最小化量化，將會丟失較大的精度
第三部分：CTC loss 和不同超參下的model測評
- CTC loss 是端到端的，所以不需要對齊數據（對齊啥？此處存疑）
- 對於長度不一的輸入和音素序列，作者是這樣處理的
  - CTC 增加一個P， $P' = P U \{空集\}$
  - 定義一個簡單的映射B，$ P’^* -> P^* $，移除重複符號和空白
  - 最終的音素序列

3.2 第三節 KEYWORD SPOTTING METHOD

第一部分：設了一個閾值檢測關鍵詞

第二部分：兩個策略發現更好的關鍵詞序列
- a greedy approach
  
  發現就歸類，始終保持分數最高的置信度，去除重複的
  
  缺點：不能保證輸出是最好的關鍵詞，比如launch my playlist ，關鍵詞是play和playlist，會被檢測爲play
- a full search
  
  所有的序列都會被考慮到，並選擇具有最大累積置信度的不重疊關鍵字的序列
第三部分：更高的置信度設計
- CTC 自帶的置信度
  
  缺點：只做了局部的預測
- 長度歸一化
  
  the length of the segment is to normalize it by the segment length
- No-blank normalization
  
  blank的影響較大
- 似然比
  
  關鍵詞和模型預測的序列之間的似然比，1爲對應，0爲不同
- Normalization and ratio
  
  沒搞清楚，說是長度和空白對模型有影響，好像是將上面的長度歸一化和似然比結合了一下，順便末尾作者提到了No-blank雖然得到了較低的置信度，但是還是幾個方法中最可靠的
第四部分：更快的解碼
- Boundaries subsampling
  
  好像是將三幀一次邊界檢測改成了兩次，僅對後處理有一定的影響
- Maximum segment length
  
  限定長度而不是最大長度
- Pruning
  
  丟棄平均負似然對數超過2.5的序列
- 忽略空白幀
第五部分：在線關鍵詞檢測

3.3 第四節 EXPERIMENTAL SETUP

數據集：the Librispeech dataset
評價指標：
- F1 scores 對於關鍵詞
- ratio 精確匹配到關鍵詞在句中

0x04 other

偏向於語言理解系統 spoken language understanding (SLU) systems
keyword-filler 框架

filler model 的提出是爲了解決長度不一樣的問題
同時有一個 background model 用來計算關鍵詞和其他詞之間的似然比
特點：
- 能夠自定義關鍵詞
- 足夠小，能在微處理器上跑起來
- 實時性
- 高準確率

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Small-Footprint Open-Vocabulary Keyword Spotting with Quantized LSTM Networks

文章目錄

0x00 Paper

0x01 爲了解決什麼問題

0x02 提出了哪些創新點

0x03 文章body

3.1 第二節 ACOUSTIC MODEL

3.2 第三節 KEYWORD SPOTTING METHOD

3.3 第四節 EXPERIMENTAL SETUP

0x04 other

Python 潮流週刊#52：Python 處理 Excel 的資源

STM32CubeMx wiht AI 初體驗

數據結構與算法_渡劫3

Beyond Tracking

數據結構與算法_渡劫2

數據結構與算法_渡劫4

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結