[Paper Note] MixNet: Mixed Depthwise Convolutional Kernals

abstract

MixNet這篇文章系統研究了不同尺寸的卷積覈對於最終結果的影響,提出了一個混合深度卷積(MDConv),在一個卷積中混合了多個卷積核尺寸。然後把MDConv集成到AutoML的搜索空間,構建了MixNets。
不同卷積核尺寸對模型的影響如下:
在這裏插入圖片描述

MDConv architecture

MDConv結構
因爲不同大小的卷積核捕捉的模式不同,特徵不同,所以把通道分成多組,每組通道使用不同尺寸的卷積核(這些都是在一個卷積內),由此可以獲取輸入圖像的不同尺度的模式。

MDConv Feature Map

X(h,w,c)X^{(h,w,c)}表示輸入張量,W(k,k,c,m)W^{(k,k,c,m)}表示深度卷積核,c是通道數,m是通道乘子。輸出張量爲Y(h,w,c×m)Y^{(h,w,c \times m)},大小依然爲h×wh \times w 但是通道數變成了 m×cm \times c
所以每個feature map的值計算如下:
(1)Yx,y,z=k2ik2,k2jk2Xx+i,y+j,z/mWi,j,z,z=1,,mc Y_{x, y, z}=\sum_{-\frac{k}{2} \leq i \leq \frac{k}{2},-\frac{k}{2} \leq j \leq \frac{k}{2}} X_{x+i, y+j, z / m} \cdot W_{i, j, z}, \quad \forall z=1, \ldots, m \cdot c \tag{1}
張量分g組後爲<X^(h,w,c1),,X^(h,w,cg)><\hat{X}^{\left(h, w, c_{1}\right)}, \ldots, \hat{X}^{\left(h, w, c_{g}\right)}>,合起來的通道數還是c。同樣的,把卷積核也分組得到<W^(k1,k1,c1,m),,W^(kg,kg,cg,m)><\hat{W}^{\left(k_{1}, k_{1}, c_{1}, m\right)}, \ldots, \hat{W}^{\left(k_{g}, k_{g}, c_{g}, m\right)}>,所以對於具體的第t組,輸出計算爲:
(2)Y^x,y,zt=k2ik2,k2jk2X^x+i,y+j,z/mtW^i,j,ztz=1,,mct \hat{Y}_{x, y, z}^{t}=\sum_{-\frac{k}{2} \leq i \leq \frac{k}{2},-\frac{k}{2} \leq j \leq \frac{k}{2}} \hat{X}_{x+i, y+j, z / m}^{t} \cdot \hat{W}_{i, j, z}^{t} , \forall z=1, \ldots, m \cdot c_{t} \tag{2}
最後每個組得到的y連接起來得到:
(3)Yx,y,zo= Concat (Y^x,y,z11,,Y^x,y,zgg) Y_{x, y, z_{o}}=\text { Concat }\left(\hat{Y}_{x, y, z_{1}}^{1}, \ldots, \hat{Y}_{x, y, z_{g}}^{g}\right) \tag{3}

MDConv Design Choices

Group Size g: 取決於卷積核類型個數,g=1等於普通的卷積,一般g=4是一個比較好好的選擇,實驗證明一般1g51 \le g \le 5

Kenal Size Per Group 一般是3×33 \times 3 然後卷積核依次增大2. 也就是{3×3,5×5,7×7,9×9}\{3 \times 3,5 \times 5,7 \times 7,9 \times 9\}

Channel Size Per Group 兩種策略

  • (1)均分
  • (2)指數遞增, 第i組,通道數爲全部通道數的2i2^{-i}

Dilated Convolution 對較大的卷積核,可以使用膨脹卷積替代,減少參數個數
不同策略的結果如下:
在這裏插入圖片描述

Summary

最後放一下MixNet的結果:
在這裏插入圖片描述
主要借鑑的地方還是在於MDConv,可以用到很多地方。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章