abstract
MixNet這篇文章系統研究了不同尺寸的卷積覈對於最終結果的影響,提出了一個混合深度卷積(MDConv),在一個卷積中混合了多個卷積核尺寸。然後把MDConv集成到AutoML的搜索空間,構建了MixNets。
不同卷積核尺寸對模型的影響如下:
MDConv architecture
因爲不同大小的卷積核捕捉的模式不同,特徵不同,所以把通道分成多組,每組通道使用不同尺寸的卷積核(這些都是在一個卷積內),由此可以獲取輸入圖像的不同尺度的模式。
MDConv Feature Map
X(h,w,c)表示輸入張量,W(k,k,c,m)表示深度卷積核,c是通道數,m是通道乘子。輸出張量爲Y(h,w,c×m),大小依然爲h×w 但是通道數變成了 m×c
所以每個feature map的值計算如下:
Yx,y,z=−2k≤i≤2k,−2k≤j≤2k∑Xx+i,y+j,z/m⋅Wi,j,z,∀z=1,…,m⋅c(1)
張量分g組後爲<X^(h,w,c1),…,X^(h,w,cg)>,合起來的通道數還是c。同樣的,把卷積核也分組得到<W^(k1,k1,c1,m),…,W^(kg,kg,cg,m)>,所以對於具體的第t組,輸出計算爲:
Y^x,y,zt=−2k≤i≤2k,−2k≤j≤2k∑X^x+i,y+j,z/mt⋅W^i,j,zt,∀z=1,…,m⋅ct(2)
最後每個組得到的y連接起來得到:
Yx,y,zo= Concat (Y^x,y,z11,…,Y^x,y,zgg)(3)
MDConv Design Choices
Group Size g: 取決於卷積核類型個數,g=1等於普通的卷積,一般g=4是一個比較好好的選擇,實驗證明一般1≤g≤5
Kenal Size Per Group 一般是3×3 然後卷積核依次增大2. 也就是{3×3,5×5,7×7,9×9}
Channel Size Per Group 兩種策略
- (1)均分
- (2)指數遞增, 第i組,通道數爲全部通道數的2−i
Dilated Convolution 對較大的卷積核,可以使用膨脹卷積替代,減少參數個數
不同策略的結果如下:
Summary
最後放一下MixNet的結果:
主要借鑑的地方還是在於MDConv,可以用到很多地方。