Small-Footprint Open-Vocabulary Keyword Spotting with Quantized LSTM Networks

原創: [email protected]
時間: 2020/04/11


0x00 Paper

0x01 爲了解決什麼問題

  • 爲了用戶能夠自定義他們自己的關鍵詞而不用retrain整個model

  • 之前的訓練的model需要提前知道關鍵詞和固定的關鍵詞訓練集

之前的模型的損失方式有三種:

  • 交叉熵
  • CTC
  • a max-pooling loss

0x02 提出了哪些創新點

  1. 量化LSTM的方法

  2. 設計了CTC訓練結果的置信度

  3. 提出了一個更快的解碼方式,除了pruning,比跳幀還快

  4. 和不同的方式做一個結果比較

    • LVCSR
    • keyword-filler
    • CTC

0x03 文章body

第二節介紹了網絡架構和量化訓練的方式

第三節介紹了關鍵詞檢測機制,置信度和優化器設置

第四節介紹了實驗相關

第五節介紹了實驗的結果

3.1 第二節 ACOUSTIC MODEL

  • 第一部分:多層LSTM

    • 輸入五幀連續的MFCC特徵,每三幀比較一次

  • 第二部分:量化

    • 量化的靈感來源:

      • B. Jacob, S. Kligys, B. Chen, M. Zhu, M. Tang, A. Howard, H. Adam,
        and D. Kalenichenko, “Quantization and training of neural networks
        for efficient integer-arithmetic-only inference,” in Proceedings of the
        IEEE Conference on Computer Vision and Pattern Recognition, 2018,
        pp. 2704–2713.
    • 權重在訓練之後被量化,量化範圍爲最大值或者最小值的2的n次冪

    • 激活函數在訓練期間被量化,固定的範圍

      1. 因爲LSTM通常包含了飽和的激活函數,範圍在(-1,1),輸入也是固定,設爲(-4,4)

        Using the same fixed range for all activation
        function inputs and outputs allows to have a single lookup
        table at inference for the sigmoid and the tanh functions,
        making the model faster to execute.

      2. LSTM 包含了很多的額外項,量化參數相同更方便量化操作

      3. 內部狀態 $ c_t $無界,沒經過一個step自動加1。如果使用最大最小化量化,將會丟失較大的精度

  • 第三部分:CTC loss 和不同超參下的model測評

    • CTC loss 是端到端的,所以不需要對齊數據(對齊啥?此處存疑)

    • 對於長度不一的輸入和音素序列,作者是這樣處理的

      • CTC 增加一個P,P=PU{}P' = P U \{空集\}
      • 定義一個簡單的映射B,$ P’^* -> P^* $,移除重複符號和空白
      • 最終的音素序列

3.2 第三節 KEYWORD SPOTTING METHOD

  • 第一部分:設了一個閾值檢測關鍵詞
  • 第二部分:兩個策略發現更好的關鍵詞序列

    • a greedy approach

      發現就歸類,始終保持分數最高的置信度,去除重複的

      缺點:不能保證輸出是最好的關鍵詞,比如launch my playlist ,關鍵詞是play和playlist,會被檢測爲play

    • a full search

      所有的序列都會被考慮到,並選擇具有最大累積置信度的不重疊關鍵字的序列

  • 第三部分:更高的置信度設計

    • CTC 自帶的置信度

      缺點:只做了局部的預測

    • 長度歸一化

      the length of the segment is to normalize it by the segment length

    • No-blank normalization

      blank的影響較大

    • 似然比

      關鍵詞和模型預測的序列之間的似然比,1爲對應,0爲不同

    • Normalization and ratio

      沒搞清楚,說是長度和空白對模型有影響,好像是將上面的長度歸一化和似然比結合了一下,順便末尾作者提到了No-blank雖然得到了較低的置信度,但是還是幾個方法中最可靠的

  • 第四部分:更快的解碼

    • Boundaries subsampling

      好像是將三幀一次邊界檢測改成了兩次,僅對後處理有一定的影響

    • Maximum segment length

      限定長度而不是最大長度

    • Pruning

      丟棄平均負似然對數超過2.5的序列

    • 忽略空白幀

  • 第五部分:在線關鍵詞檢測

3.3 第四節 EXPERIMENTAL SETUP

  • 數據集:the Librispeech dataset
  • 評價指標:
    • F1 scores 對於關鍵詞
    • ratio 精確匹配到關鍵詞在句中

0x04 other

  • 偏向於語言理解系統 spoken language understanding (SLU) systems

  • keyword-filler 框架

    filler model 的提出是爲了解決長度不一樣的問題
    同時有一個 background model 用來計算關鍵詞和其他詞之間的似然比

  • 特點:

    • 能夠自定義關鍵詞
    • 足夠小,能在微處理器上跑起來
    • 實時性
    • 高準確率
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章