CENet-GCN (2019年)

原創: [email protected]
時間: 2020/04/16

JkoL7t.png
Jkdxrd.png

0x00 Paper

本文看點:

  • 用了兩個方法來減少參數,保證性能的前提下

    • 使用了bottleneck structure,參數較少,叫做CENet
    Model Param FLOPs Acc
    TC-ResNet-8 66k 3M 96.1%
    CENet-6 16.2k 1.95M 93.9%
    • 引入了GCN,可以獲取了更長範圍的上下文信息,叫做CENet-GCN
    Model Param FLOPs Acc
    CENet-40 60.9k 16.18M 96.4%
    CENet-GCN-24 55.6k 9.11M 96.5%
  • 數據集是Google Speech Command Dataset

  • 評估model 指標的源頭paper

    Deep residual learning for small-footprint keyword spotting (2018年)

  • 代碼未開源

0x01 爲了解決什麼問題

  • 之前的基於神經網絡的KWS方法雖然保證了計算效率,但是對於獲取局部感受野和短範圍的上下文信息不太行

    These methods have demonstrated computational efficiency but failed in capturing local receptive fields and short range context.

  • 針對於獲取長範圍的上下文信息的RNN models存在計算成本和延時增加的問題

0x02 提出了哪些創新點

結合GCN和CENet,提出了CENet-GCN

  • 什麼是CENet?
  • Inspired by the ResNet [21], we propose a compact and efficient convolutional network (denoted as CENet) by utilizing the bottleneck architecture with narrow structure.
  • 基於bottleneck architecture,提出了緊湊高效的卷積神經網絡,CENet
  • 第一個使用GCN,來獲取長範圍的上下文信息並增強特徵信息。

0x03 網絡結構

3.1 先獲取 MFCC 特徵

3.2 CENet

  • 目的
    • 緊湊的網絡結構
    • 低計算成本
  • 參考ResNet
  • 作者還對通道數做了一個消融實驗,來驗證model的性能和計算效率
  • 結構
    1. Initial block
      • 生成特徵圖
      • 增加2 × 2的平均池化層,爲了減少特徵圖的空間size
    2. Bottleneck block
      • 更低的模型複雜性,分爲1 × 1; 3 × 3; 1×1
    3. Connection block
      • 升維和降維,通過使用stride = 2

3.3 GCN

  • 原理:在特徵表示中建模非局部的關係,應用在KWS中,可以獲取長範圍的上下文信息

    Modeling non-local relations in feature representations

  • 非局部的關係定義如下:

JkuP6U.png

  • 僅用了一層,來保證模型較小的複雜度
  • 增強了特徵信息(怎麼增強的?還沒搞清楚)
Jk5o4O.png

0x04 實驗結果

  • 數據集:Google Command Dataset
  • 量化後的model 比較:(比res15小,比DS-CNN-S小,後面的是從TC-ResNet截圖過來的)
  • CENet without GCN
JkQrHe.png
  • CENet-GCN; MFCC or fbank as input

下面括號中的acc是以fbank 特徵作爲輸入的,標準的是用MFCC作爲輸入

JkrVf0.png
  • GCN add different stages
JkcDr8.png
  • 可視化的特徵圖(add GCN)
JkfggA.png
  • ROC

  • 可視化的特徵圖(add GCN)

JkfggA.png
  • ROC
JkgUwF.png
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章