GoogleNet:inceptionV3模型

Rethinking the Inception Architecture for Computer Vision

論文地址:https://arxiv.org/abs/1512.00567

 

Abstract

介紹了卷積網絡在計算機視覺任務中state-of-the-art。分析現在現狀,本文通過適當增加計算條件下,通過suitably factorized convolutions 和 aggressive regularization來擴大網絡。並說明了取得的成果。

1. Introduction

介紹AlexNet後,推更深網絡模型的提出。然後介紹GoogLeNet 考慮了內存和計算資源,五百萬個參數,比六千萬參數的 AlexNet 少12倍, VGGNet 則是AlexNet 的參數三倍多。提出了GoogLeNet 更適合於大數據的處理,尤其是內存或計算資源有限制的場合。原來Inception 架構的複雜性沒有清晰的描述。本文主要提出了一些設計原理和優化思路。

 

2. General Design Principles

2.1避免特徵表示瓶頸,尤其是在網絡的前面。前饋網絡可以通過一個無環圖來表示,該圖定義的是從輸入層到分類器或迴歸器的信息流動。要避免嚴重壓縮導致的瓶頸。特徵表示尺寸應該溫和的減少,從輸入端到輸出端。特徵表示的維度只是一個粗淺的信息量表示,它丟掉了一些重要的因素如相關性結構。

2.2高緯信息更適合在網絡的局部處理。在卷積網絡中逐步增加非線性激活響應可以解耦合更多的特徵,那麼網絡就會訓練的更快。

2.3空間聚合可以通過低緯嵌入,不會導致網絡表示能力的降低。例如在進行大尺寸的卷積(如3*3)之前,我們可以在空間聚合前先對輸入信息進行降維處理,如果這些信號是容易壓縮的,那麼降維甚至可以加快學習速度。

2.4平衡好網絡的深度和寬度。通過平衡網絡每層濾波器的個數和網絡的層數可以是網絡達到最佳性能。增加網絡的寬度和深度都會提升網絡的性能,但是兩者並行增加獲得的性能提升是最大的。所以計算資源應該被合理的分配到網絡的寬度和深度。

 

3. Factorizing Convolutions with Large Filter Size

GoogLeNet 網絡優異的性能主要源於大量使用降維處理。這種降維處理可以看做通過分解卷積來加快計算速度的手段。在一個計算機視覺網絡中,相鄰激活響應的輸出是高度相關的,所以在聚合前降低這些激活影響數目不會降低局部表示能力。

 

3.1. Factorization into smaller convolutions

大尺寸濾波器的卷積(如5*5,7*7)引入的計算量很大。例如一個 5*5 的卷積比一個3*3卷積濾波器多25/9=2.78倍計算量。當然5*5濾波器可以學習到更多的信息。那麼我們能不能使用一個多層感知器來代替這個 5*5 卷積濾波器。受到NIN的啓發,用下面的方法,如圖進行改進。

 

 

5*5卷積看做一個小的全鏈接網絡在5*5區域滑動,我們可以先用一個3*3的卷積濾波器卷積,然後再用一個全鏈接層連接這個3*3卷積輸出,這個全鏈接層我們也可以看做一個3*3卷積層。這樣我們就可以用兩個3*3卷積級聯起來代替一個 5*5卷積。如圖4,5所示。

3.2. Spatial Factorization into Asymmetric Convolutions

空間上分解爲非對稱卷積,受之前啓發,把3*3的卷積核分解爲3*1+1*3來代替3*3的卷積。如圖三所示,兩層結構計算量減少33%。

 

4. Utility of Auxiliary Classifiers

引入了附加分類器,其目的是從而加快收斂。輔助分類器其實起着着regularizer的作用。當輔助分類器使用了batch-normalized或dropout時,主分類器效果會更好。

5. Efficient Grid Size Reduction

池化操作降低特徵圖大小,使用兩個並行的步長爲2的模塊, P 和 C。P是一個池化層,然後將兩個模型的響應組合到一起來更多的降低計算量。

 

6. Inception-v2

把7x7卷積替換爲3個3x3卷積。包含3個Inception部分。第一部分是35x35x288,使用了2個3x3卷積代替了傳統的5x5;第二部分減小了feature map,增多了filters,爲17x17x768,使用了nx1->1xn結構;第三部分增多了filter,使用了卷積池化並行結構。網絡有42層,但是計算量只有GoogLeNet的2.5倍。

 

7. Model Regularization via Label Smoothing

輸入x,模型計算得到類別爲k的概率

 

假設真實分佈爲q(k),交叉熵損失函數

 

最小化交叉熵等價最大化似然函數。交叉熵函數對邏輯輸出求導

 

引入一個獨立於樣本分佈的變量u(k)

 

8. Training Methodology

TensorFlow 。

batch-size=32,epoch=100。SGD+momentum,momentum=0.9。

RMSProp,decay=0.9,ϵ=0.1。

lr=0.045,每2個epoch,衰減0.94。

梯度最大閾值=2.0。

 

9. Performance on Lower Resolution Input

對於低分辨有圖像,使用“高分辨率”receptive field。簡單的辦法是減小前2個卷積層的stride,去掉第一個pooling層。做了三個對比實驗,實驗結果

 

 

10.  Experimental Results and Comparisons

實驗結果和對比

 

11. Conclusions

提供了幾個擴大規模的設計原則卷積網絡,並在其背景下進行了研究初始架構。這個指導可以導致很高的性能視覺網絡有一個相對較小的計算成本比較簡單,更單一架構。參數有效減小,計算量降低。我們還表明,輸入分辨率79×79仍可以達到高達高質量結果。這可能有助於檢測較小物體的系統。 我們研究瞭如何在神經網絡中進行因式分解和積極維度降低可以導致網絡具有相對低的計算成本,同時保持高質量。較低參數計數和附加正則化與批量歸一化輔助分類器和標籤平滑的組合允許在相對適度的訓練集上訓練高質量網絡。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章