論文地址:Going deeper with convolutions
前言
在ILSVRC2014上最耀眼的除了VGG,那就非GoogLeNet莫屬了,它與VGG類似的地方就是,關注於模型的深度,使模型傾向於deeper,與VGG不同的是,它的嘗試更加新穎。從2014年至今,GoogLeNet經歷了Inception v1到v4,以及Inception-ResNet的發展,也證明了Inception最初思想的潛力。今天我們就來看看GoogLeNet Inception V1的框架和效果。
思想
GoogLeNet的思想動機也是增加模型的規模:深度,和寬度。同樣的是,更大的模型意味着更多的參數,計算資源的消耗增加,模型也更容易過擬合,因此並不能盲目的增加模型的規模。
改進
深度,必須增加。那麼爲了較少模型複雜度,就只能在模型的寬度上做文章。VGG的做法是將每一層的濾波器尺寸都換成
框架結構
對於每一個Inception模塊,包含有
隨着層數的加深,feature map中特徵的空間集中度會下降,因此需要更多的
因而作者提出了一種新的結構,在
整個GoogLeNet的框架如下:
模型的參數如下:
我們發現在Inception4(a)和Inception4(d)中,使用了輔助分類器,作者希望利用中間層的特徵來增加底層的判別性,利用輔助分類器來增加反向傳播的信號,來增加額外的正則化(輔助分類器在測試階段並不使用)。
對於整個GoogLeNet模型,雖然總共有22層,但是參數數量卻只是8層的AlexNet的十二分之一。
實驗結果
分類任務上與state of the art的比較
GoogLeNet 不同版本的性能:
檢測任務上與state of the art的比較:
單模型檢測的性能:
總結
本文在模型結構上進行了非常大膽新穎的嘗試,在提高模型層次的基礎上,使用稀疏結構來減少模型複雜度,以提高模型的性能。結果也證明了這個方法是非常具有研究價值的。