深度學習之卷積神經網絡入門（2）

卷積神經網絡入門學

原文地址：http://blog.csdn.net/hjimce/article/details/47323463

作者：hjimce

卷積神經網絡算法是n年前就有的算法，只是近年來因爲深度學習相關算法爲多層網絡的訓練提供了新方法，然後現在電腦的計算能力已非當年的那種計算水平，同時現在的訓練數據很多，於是神經網絡的相關算法又重新火了起來，因此卷積神經網絡就又活了起來。

在開始前，我們需要明確的是網上講的卷積神經網絡的相關教程一般指的是神經網絡的前向傳導過程，反向傳播都是用梯度下降法進行訓練，大部分深度學習庫，都已經把反向求導的功能給封裝好了，如果想要深入學習反向求導，就需要自己慢慢學了。

因爲卷積神經網絡的經典模型是：Lenet-5實現，只要理解了這個的前向傳導過程，基本上就OK了，因此我們後面主要講解Lenet-5的實現。

一、理論階段

作爲CNN的入門文章，沒有打算囉嗦太多的東西，因爲什麼權值共享、局部感受野什麼的，講那麼多，都是那些生物學的相關理論，看了那些玩意，大部分初學者已經煩了。卷積神經網絡的相關博文也是一大堆，但是講的，基本上都是抄過來抄過去，就像我之前不理解從S2層到C3層是怎麼實現的，網上看了一大堆教程，沒有一個解答這個問題的。我的個人感覺整個過程，就只有S2到C3是最難理解的。接着我將用最淺顯易懂的方式進行講解。

1、卷積

卷積的概念這個我想只要學過圖像處理的人都懂的概念了，這個不解釋。我們知道對於給定的一幅圖像來說，給定一個卷積核，卷積就是根據卷積窗口，進行像素的加權求和。

卷積神經網絡與我們之前所學到的圖像的卷積的區別，我的理解是：我們之前學圖像處理遇到卷積，一般來說，這個卷積核是已知的，比如各種邊緣檢測算子、高斯模糊等這些，都是已經知道卷積核，然後再與圖像進行卷積運算。然而深度學習中的卷積神經網絡卷積核是未知的，我們訓練一個神經網絡，就是要訓練得出這些卷積核，而這些卷積核就相當於我們學單層感知器的時候的那些參數W，因此你可以把這些待學習的卷積核看成是神經網絡的訓練參數W。

2、池化

剛開始學習CNN的時候，看到這個詞，好像高大上的樣子，於是查了很多資料，理論一大堆，但是實踐、算法實現卻都沒講到，也不懂池化要怎麼實現？其實所謂的池化，就是圖片下采樣。這個時候，你會發現CNN每一層的構建跟圖像高斯金字塔的構建有點類似，因此你如果已經懂得了圖像金字塔融合的相關算法，那麼就變的容易理解了。在高斯金子塔構建中，每一層通過卷積，然後卷積後進行下采樣，而CNN也是同樣的過程。廢話不多說，這裏就講一下，CNN的池化：

CNN的池化(圖像下采樣)方法很多：Mean pooling(均值採樣)、Max pooling(最大值採樣)、Overlapping (重疊採樣)、L2 pooling(均方採樣)、Local Contrast Normalization(歸一化採樣)、Stochasticpooling(隨即採樣)、Def-pooling(形變約束採樣)。其中最經典的是最大池化，因此我就解釋一下最大池化的實現：

原圖片

爲了簡單起見，我用上面的圖片作爲例子，假設上面的圖片大小是4*4的，如上圖所示，然後圖片中每個像素點的值是上面各個格子中的數值。然後我要對這張4*4的圖片進行池化，池化的大小爲(2,2)，跨步爲2，那麼採用最大池化也就是對上面4*4的圖片進行分塊，每個塊的大小爲2*2，然後統計每個塊的最大值，作爲下采樣後圖片的像素值，具體計算如下圖所示：

也就是說我們最後得到下采樣後的圖片爲：

這就是所謂的最大池化。當然以後你還會遇到各種池化方法，比如均值池化，也就是對每個塊求取平均值作爲下采樣的新像素值。還有重疊採樣的池化，我上面這個例子是沒有重疊的採樣的，也就是每個塊之間沒有相互重疊的部分，上面我說的跨步爲2，就是爲了使得分塊都非重疊，等等，這些以後再跟大家解釋池化常用方法。這裏就先記住最大池化就好了，因爲這個目前是最常用的。

3、feature maps

這個單詞國人把它翻譯成特徵圖，挺起來很專業的名詞。那麼什麼叫特徵圖呢？其實一張圖片經過一個卷積核進行卷積運算，我們可以得到一張卷積後的結果圖片，而這張圖片就是特徵圖。在CNN中，我們要訓練的卷積核並不是僅僅只有一個，這些卷積核用於提取特徵，卷積核個數越多，提取的特徵越多，理論上來說精度也會更高，然而卷積核一堆，意味着我們要訓練的參數的個數越多。在LeNet-5經典結構中，第一層卷積核選擇了6個，而在AlexNet中，第一層卷積核就選擇了96個，具體多少個合適，還有待學習。

回到特徵圖概念，CNN的每一個卷積層我們都要人爲的選取合適的卷積核個數，及卷積核大小。每個卷積核與圖片進行卷積，就可以得到一張特徵圖了，比如LeNet-5經典結構中，第一層卷積核選擇了6個，我們可以得到6個特徵圖，這些特徵圖也就是下一層網絡的輸入了。我們也可以把輸入圖片看成一張特徵圖，作爲第一層網絡的輸入。

4、CNN的經典結構

對於剛入門CNN的人來說，我們首先需要現在的一些經典結構：

(1)LeNet-5。這個是n多年前就有的一個CNN的經典結構，主要是用於手寫字體的識別，也是剛入門需要學習熟悉的一個網絡，我的這篇博文主要就是要講這個網絡

(2)AlexNet。

在imagenet上的圖像分類challenge上大神Alex提出的alexnet網絡結構模型贏得了2012屆的冠軍，振奮人心，利用CNN實現了圖片分類，別人用傳統的機器學習算法調參跳到半死也就那樣，Alex利用CNN精度遠超傳統的網絡。

其它的還有什麼《Network In Network》，GoogLeNet、Deconvolution Network，在以後的學習中我們會遇到。比如利用Deconvolution Network反捲積網絡實現圖片的去模糊，牛逼哄哄。

OK，理論階段就囉嗦到這裏就好了，接着就講解 LeNet-5， LeNet-5是用於手寫字體的識別的一個經典CNN：

LeNet-5結構

輸入：32*32的手寫字體圖片，這些手寫字體包含0~9數字，也就是相當於10個類別的圖片

輸出：分類結果，0~9之間的一個數

因此我們可以知道，這是一個多分類問題，總共有十個類，因此神經網絡的最後輸出層必然是SoftMax問題，然後神經元的個數是10個。LeNet-5結構：

輸入層：32*32的圖片，也就是相當於1024個神經元

C1層：paper作者，選擇6個特徵卷積核，然後卷積核大小選擇5*5，這樣我們可以得到6個特徵圖，然後每個特徵圖的大小爲32-5+1=28，也就是神經元的個數由1024減小到了28*28=784。

S2層：這就是下采樣層，也就是使用最大池化進行下采樣，池化的size，選擇(2,2)，也就是相當於對C1層28*28的圖片，進行分塊，每個塊的大小爲2*2，這樣我們可以得到14*14個塊，然後我們統計每個塊中，最大的值作爲下采樣的新像素，因此我們可以得到S1結果爲：14*14大小的圖片，共有6個這樣的圖片。

C3層：卷積層，這一層我們選擇卷積核的大小依舊爲5*5，據此我們可以得到新的圖片大小爲14-5+1=10，然後我們希望可以得到16張特徵圖。那麼問題來了？這一層是最難理解的，我們知道S2包含：6張14*14大小的圖片，我們希望這一層得到的結果是：16張10*10的圖片。這16張圖片的每一張，是通過S2的6張圖片進行加權組合得到的，具體是怎麼組合的呢？問題如下圖所示：

爲了解釋這個問題，我們先從簡單的開始，我現在假設輸入6特徵圖的大小是5*5的，分別用6個5*5的卷積核進行卷積，得到6個卷積結果圖片大小爲1*1，如下圖所示：

爲了簡便起見，我這裏先做一些標號的定義：我們假設輸入第i個特徵圖的各個像素值爲x1i，x2i……x25i，因爲每個特徵圖有25個像素。因此第I個特徵圖經過5*5的圖片卷積後，得到的卷積結果圖片的像素值Pi可以表示成：

這個是卷積公式，不解釋。因此對於上面的P1~P6的計算方法，這個就是直接根據公式。然後我們把P1~P6相加起來，也就是：

P=P1+P2+……P6

把上面的Pi的計算公式，代入上式，那麼我們可以得到：

P=WX

其中X就是輸入的那6張5*5特徵圖片的各個像素點值，而W就是我們需要學習的參數，也就相當於6個5*5的卷積核，當然它包含着6*（5*5）個參數。因此我們的輸出特徵圖就是：

Out=f(P+b)

這個就是從S2到C3的計算方法，其中b表示偏置項，f爲激活函數。

我們迴歸到原來的問題：有6張輸入14*14的特徵圖片，我們希望用5*5的卷積核，然後最後我們希望得到一張10*10的輸出特徵圖片？

根據上面的過程，也就是其實我們用5*5的卷積核去卷積每一張輸入的特徵圖，當然每張特徵圖的卷積核參數是不一樣的，也就是不共享，因此我們就相當於需要6*(5*5)個參數。對每一張輸入特徵圖進行卷積後，我們得到6張10*10，新圖片，這個時候，我們把這6張圖片相加在一起，然後加一個偏置項b，然後用激活函數進行映射，就可以得到一張10*10的輸出特徵圖了。

而我們希望得到16張10*10的輸出特徵圖，因此我們就需要卷積參數個數爲16*(6*(5*5))=16*6*(5*5)個參數。總之，C3層每個圖片是通過S2圖片進行卷積後，然後相加，並且加上偏置b,最後在進行激活函數映射得到的結果。

S4層：下采樣層，比較簡單，也是知己對C3的16張10*10的圖片進行最大池化，池化塊的大小爲2*2。因此最後S4層爲16張大小爲5*5的圖片。至此我們的神經元個數已經減少爲：16*5*5=400。

C5層：我們繼續用5*5的卷積核進行卷積，然後我們希望得到120個特徵圖。這樣C5層圖片的大小爲5-5+1=1，也就是相當於1個神經元，120個特徵圖，因此最後只剩下120個神經元了。這個時候，神經元的個數已經夠少的了，後面我們就可以直接利用全連接神經網絡，進行這120個神經元的後續處理，後面具體要怎麼搞，只要懂多層感知器的都懂了，不解釋。

上面的結構，只是一種參考，在現實使用中，每一層特徵圖需要多少個，卷積核大小選擇，還有池化的時候採樣率要多少，等這些都是變化的，這就是所謂的CNN調參，我們需要學會靈活多變。

比如我們可以把上面的結構改爲:C1層卷積核大小爲7*7，然後把C3層卷積核大小改爲3*3等，然後特徵圖的個數也是自己選，說不定得到手寫字體識別的精度比上面那個還高，這也是有可能的，總之一句話：需要學會靈活多變，需要學會CNN的調參。

二、實戰階段

學習CNN的源碼實現網站：http://deeplearning.net/tutorial/lenet.html#lenet

1、訓練數據獲取

在theano學習庫中有手寫字體的庫，可以從網上下載到，名爲：mnist.pkl.gz的手寫字體庫，裏面包含了三個部分的數據，訓練數據集train_set：50000個訓練樣本，驗證集valid_set，我們可以用如下的代碼讀取這些數據，然後用plot顯示其中的一張圖片:

[python] view plain copy