論文閱讀筆記:VGG:Very Deep Convolutional Networks
論文下載地址:Very Deep Convolutional Networks for Large-Scale Image Recognition
本文主要包含如下內容:
論文來源於牛津大學 visual geometry group(VGG),撰寫於2014年,主要探討了深度對網絡的重要性,並且構造了一個19層的深度神經網絡,在ILSVRC 2014
中定位獲得了第一名,分類獲得了第二名。
主要思想
這篇論文的工作在ILSVRC 2014
中的classification
項目的比賽中取得了第2名的成績,證明網絡越深,網絡學習能力越好,分類能力越強。
相對於 Alex-net,論文主要使用了較小尺寸的濾波器,並且使用 1*1 卷積核進行降爲操作,在減少計算量的同時引入了非線性,增強了網絡的表達能力。
網絡結構
VGGNet 網絡結構通過反覆堆疊3´3的小型卷積核和2´2的最大池化層, 成功地構築了16~19層深的卷積神經網絡。
其中,網絡中使用了3*3
卷積核:未使用較大的感受野,如11*11
和7*7
的卷積核,因爲兩個連續的3*3
大小的卷積核與一個5*5
大小的卷積核具有相同的局部空間(感受野),而連續的3*3
大小的卷積核則和一個7*7
大小的卷積核具有相同的局部空間。但相比使用一個7*7
大小的卷積核,3個連續的3*3
的卷積核進行了3次非線性處理,提高了網絡的學習能力。另外,3*3
的卷積核也降低了參數的數目,假設3x3
的卷積核處理C通道的feature maps
時,一共有3(3x3xCxC)=27CxC
個參數,而7x7
的卷積核則有7x7xCxC
共49CxC
個參數;
同時,網絡中使用1*1
卷積核:用以降維和升維:維度指的是通道數(厚度),而不改變圖片的寬和高。
網絡中還加入非線性:卷積層之後經過激勵層,1*1的卷積在前一層的學習表示上添加了非線性激勵,提升網絡的表達能力。
可以應用Netscope查看網絡具體參數。
訓練時,輸入是大小爲224*224
的RGB圖像,預處理只在訓練集中的每個像素上減去RGB的均值。
圖像經過一系列卷積層處理,在卷積層中使用了非常小的感受野(receptive field
):3*3
,甚至有的地方使用1*1
的卷積,這種1*1
的卷積可以被看做是對輸入通道(input channel
)的線性變換。
卷積步長(stride
)設置爲1個像素,3*3卷積層的填充(padding
)設置爲1個像素。池化層採用max-pooling
,共有5層,在一部分卷積層後,max-pooling
的窗口是2*2,步長是2。
一系列卷積層之後跟着全連接層(fully-connected layers
)。前兩個全連接層均有4096個通道。第三個全連接層有1000個通道,用來分類。所有網絡的全連接層配置相同。
所有隱藏層都使用ReLu
。VGGNet
不使用局部響應標準化(LRN
),這種標準化並不能在ILSVRC
數據集上提升性能,卻導致更多的內存消耗和計算時間。
實驗結果
論文中比較了 VGG 網絡和其他網絡在ILSVRC 2014
中的classification
挑戰賽的測試結果。