卷積神經網絡在ImageNet項目中的演進過程

1、ImageNet數據集背景介紹:
如果說Mnist數據集將初學者領進了深度學習領域,那麼Imagenet數據集在深度學習中尤其是計算機視覺領域掀起了巨大的浪潮。ImageNet項目於2007年由斯坦福大學華人教授李飛飛創辦,目標是收集大量帶有標註信息的圖片數據供計算機視覺模型訓練。ImageNet擁有1500萬張標註過的高清圖片,總共擁有22000類,其中約有100萬張標註了圖片中主要物體的定位邊框。Imagenet數據集是目前深度學習圖像領域應用得非常多的一個數據,關於圖像分類、定位、檢測等研究工作大多基於此數據集展開。ImageNet國際計算機視覺挑戰賽(ILSVRC)就是基於該數據集子集(120萬張圖片,以及1000類的標註),吸引了中美英等7個國家的25支頂尖人工智能團隊參賽,該比賽每年舉辦一次。比賽採用top-5和top-1分類錯誤率作爲模型性能的評測指標。

    性能解釋:
    top-5是指模型預測一個樣本的結果前五中有預測正確的即爲預測正確,否則錯誤。
    top-1是指模型預測一個樣本的最佳的最佳結果正確即爲預測正確,否則錯誤。

2、ImageNet項目比賽的網絡結構模型演進
自從2010年舉辦以來,各大公司和頂尖的團隊參賽不斷,包括Google、MSRA、DeepMind、港中文等。以下介紹幾種得冠團隊中經典的網絡結構模型:AlexNet、VGGNet、Google Inception Net和ResNet。
1、AlexNet(2012年冠軍)
AlexNet的第一作者是Alex,是2012年被髮表的一個金典之作,並在當年取得了ImageNet比賽的最好成績。官方提供的數據顯示準確率達到57.1%,AlexNet, top-5錯誤率16.4%.
這裏寫圖片描述
AlexNet特點:
- 卷積層:5層 ,當時用的還是5*5,3*3的大卷積層。
- 全連接層:3層
- 深度:8層
AlexNet將LeNet的思想發揚光大,把CNN的基本原理應用到了很深很寬的網絡中。奠定了深度卷積神經網絡在機器視覺領域的地位。
2、InceptionNet(2014年冠軍)
InceptionNet是Google公司發明並創建的,當時還是InceptionV1,並在2014年獲得了ImageNet比賽的冠軍InceptionNet是一個22層神經網絡,top-5錯誤率爲6.7%。
這裏寫圖片描述
Inception V1的特點:
- 22層,比AlexNet 的 8 層或者 VGGNet 的 19 層還要更深;
- 全局平均池化層(將圖片尺寸變爲1×11×1)取代全連接層;
- 小卷積核(1*1,3*3,5*5),最大池化層(3*3)

3、VGGnet(2014年亞軍)
VGGNet由牛津大學的視覺幾何組(Visual Geometry Group)提出,是ILSVRC-2014中定位任務第一名和分類任務第二名。並且證明了使用很小的卷積(3*3),增加網絡深度可以有效提升模型的效果,而且VGGNet對其他數據集具有很好的泛化能力。VGGnet有16層和19層兩種。兩種網絡除了卷積層層數的差別,其他都不大,並且在準確率上也相差不大.VGG19,在14年的性能表現爲top-5錯誤率7.3%。
這裏寫圖片描述
VGG19網絡結構:
- 卷積層:16層
- 全連接層:3層
- 連續使用多層小卷積核(3*3*M)

4、ResNet(2015年冠軍)
ResNet在2015年被提出,主要是針對層數越深,訓練集準確率反而出現下降的情況提出的深度殘差網絡,並在ImageNet比賽classification任務上獲得第一名,因爲它“簡單與實用”並存,之後很多方法都建立在ResNet50或者ResNet101的基礎上完成的,檢測,分割,識別等領域都紛紛使用ResNet,Alpha zero也使用了ResNet,所以可見ResNet確實很好用。 ResNet的top-5錯誤率爲3.57%。
這裏寫圖片描述
ResNet的結構特點:
- 152層
- 層之間用到了ShortCutting,減少了訓練的難度。

在ImageNet圖像識別項目中,幾乎所有網絡結構都是基於卷積神經網絡的改進,改進方向一般是網絡的深度(也就是卷積層的個數)、卷積核的個數,卷積核的大小,激活函數以及各層之間的連接方式(跳層連接)等等。在機器視覺的領域基本離不開卷積神經網絡,並且隨着語音識別的,自然語言的發展,卷積神經網絡也在序列處理當中發揮了很強的特徵提取的功能。。關於卷積神經網絡的原理將在下一篇博客詳細介紹。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章