caffe卷積輸入通道如何到輸出通道

卷積過程好像是對一個通道的圖像進行卷積，比如10個卷積核，得到10個feature map，那麼輸入圖像爲RGB三個通道呢，輸出就爲 30個feature map 嗎，答案肯定不是的，輸出的個數依然是卷積核的個數。可以查看常用模型，比如lenet 手寫體，Alex imagenet 模型，每一層輸出feature map 個數就是該層卷積核的個數。

1、一通道單個卷積核卷積過程

2、一通道多個卷積核卷積過程

一個卷積核得到的特徵提取是不充分的，我們可以添加多個卷積核，比如32個卷積核，可以學習32種特徵。在有多個卷積核時，如下圖所示：輸出就爲32個feature map

3、多通道的多個卷積核

下圖展示了在四個通道上的卷積操作，有兩個卷積核，生成兩個通道。其中需要注意的是，四個通道上每個通道對應一個卷積核，先將w2忽略，只看w1，那麼在w1的某位置（i,j）處的值，是由四個通道上（i,j）處的卷積結果相加然後再取激活函數值得到的。所以最後得到兩個feature map，即輸出層的卷積核核個數爲 feature map 的個數。

所以，在上圖由4個通道卷積得到2個通道的過程中，參數的數目爲4×2×2×2個，其中4表示4個通道，第一個2表示生成2個通道，最後的2×2表示卷積核大小。

下面是常見模型，理解一下每層feature map 個數，爲上一層卷積核的個數

下圖即爲Alex的CNN結構圖。需要注意的是，該模型採用了2-GPU並行結構，即第1、2、4、5卷積層都是將模型參數分爲2部分進行訓練的。在這裏，更進一步，並行結構分爲數據並行與模型並行。數據並行是指在不同的GPU上，模型結構相同，但將訓練數據進行切分，分別訓練得到不同的模型，然後再將模型進行融合。而模型並行則是，將若干層的模型參數進行切分，不同的GPU上使用相同的數據進行訓練，得到的結果直接連接作爲下一層的輸入。

上圖模型的基本參數爲：

輸入：224×224大小的圖片，3通道
第一層卷積：5×5大小的卷積核96個，每個GPU上48個。
第一層max-pooling：2×2的核。
第二層卷積：3×3卷積核256個，每個GPU上128個。
第二層max-pooling：2×2的核。
第三層卷積：與上一層是全連接，3*3的卷積核384個。分到兩個GPU上個192個。
第四層卷積：3×3的卷積核384個，兩個GPU各192個。該層與上一層連接沒有經過pooling層。
第五層卷積：3×3的卷積核256個，兩個GPU上個128個。
第五層max-pooling：2×2的核。
第一層全連接：4096維，將第五層max-pooling的輸出連接成爲一個一維向量，作爲該層的輸入。
第二層全連接：4096維
Softmax層：輸出爲1000，輸出的每一維都是圖片屬於該類別的概率。

4 DeepID網絡結構

DeepID網絡結構是香港中文大學的Sun Yi開發出來用來學習人臉特徵的卷積神經網絡。每張輸入的人臉被表示爲160維的向量，學習到的向量經過其他模型進行分類，在人臉驗證試驗上得到了97.45%的正確率，更進一步的，原作者改進了CNN，又得到了99.15%的正確率。

如下圖所示，該結構與ImageNet的具體參數類似，所以只解釋一下不同的部分吧。

上圖中的結構，在最後只有一層全連接層，然後就是softmax層了。論文中就是以該全連接層作爲圖像的表示。在全連接層，以第四層卷積和第三層max-pooling的輸出作爲全連接層的輸入，這樣可以學習到局部的和全局的特徵。

---------------------------------------------------------------------------------------------------------------------------------------------------------------------

下面講一下，caffe中的實現。