論文閱讀筆記:VGG:Very Deep Convolutional Networks

論文閱讀筆記:VGG:Very Deep Convolutional Networks

論文下載地址:Very Deep Convolutional Networks for Large-Scale Image Recognition

本文主要包含如下內容:

  論文來源於牛津大學 visual geometry group(VGG),撰寫於2014年,主要探討了深度對網絡的重要性,並且構造了一個19層的深度神經網絡,在ILSVRC 2014中定位獲得了第一名,分類獲得了第二名。


主要思想


  這篇論文的工作在ILSVRC 2014中的classification項目的比賽中取得了第2名的成績,證明網絡越深,網絡學習能力越好,分類能力越強。

  相對於 Alex-net,論文主要使用了較小尺寸的濾波器,並且使用 1*1 卷積核進行降爲操作,在減少計算量的同時引入了非線性,增強了網絡的表達能力。


網絡結構


  
  VGGNet 網絡結構通過反覆堆疊3´3的小型卷積核和2´2的最大池化層, 成功地構築了16~19層深的卷積神經網絡。

  其中,網絡中使用了3*3卷積核:未使用較大的感受野,如11*117*7的卷積核,因爲兩個連續的3*3大小的卷積核與一個5*5大小的卷積核具有相同的局部空間(感受野),而連續的3*3大小的卷積核則和一個7*7大小的卷積核具有相同的局部空間。但相比使用一個7*7大小的卷積核,3個連續的3*3的卷積核進行了3次非線性處理,提高了網絡的學習能力。另外,3*3的卷積核也降低了參數的數目,假設3x3的卷積核處理C通道的feature maps時,一共有3(3x3xCxC)=27CxC個參數,而7x7的卷積核則有7x7xCxC49CxC個參數;

  同時,網絡中使用1*1卷積核:用以降維和升維:維度指的是通道數(厚度),而不改變圖片的寬和高。

  網絡中還加入非線性:卷積層之後經過激勵層,1*1的卷積在前一層的學習表示上添加了非線性激勵,提升網絡的表達能力。

  VGG16
  可以應用Netscope查看網絡具體參數。
  訓練時,輸入是大小爲224*224的RGB圖像,預處理只在訓練集中的每個像素上減去RGB的均值。

  圖像經過一系列卷積層處理,在卷積層中使用了非常小的感受野(receptive field):3*3,甚至有的地方使用1*1的卷積,這種1*1的卷積可以被看做是對輸入通道(input channel)的線性變換。

  卷積步長(stride)設置爲1個像素,3*3卷積層的填充(padding)設置爲1個像素。池化層採用max-pooling,共有5層,在一部分卷積層後,max-pooling的窗口是2*2,步長是2。

  一系列卷積層之後跟着全連接層(fully-connected layers)。前兩個全連接層均有4096個通道。第三個全連接層有1000個通道,用來分類。所有網絡的全連接層配置相同。

  所有隱藏層都使用ReLuVGGNet不使用局部響應標準化(LRN),這種標準化並不能在ILSVRC數據集上提升性能,卻導致更多的內存消耗和計算時間。


實驗結果


  論文中比較了 VGG 網絡和其他網絡在ILSVRC 2014中的classification挑戰賽的測試結果。
  

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章