卷積神經網絡池化層和卷積層作用

鏈接:https://www.zhihu.com/question/36686900/answer/130890492

個人覺得主要是兩個作用:
1. invariance(不變性),這種不變性包括translation(平移),rotation(旋轉),scale(尺度)
2. 保留主要的特徵同時減少參數(降維,效果類似PCA)和計算量,防止過擬合,提高模型泛化能力

(1) translation invariance:
這裏舉一個直觀的例子(數字識別),假設有一個16x16的圖片,裏面有個數字1,我們需要識別出來,這個數字1可能寫的偏左一點(圖1),這個數字1可能偏右一點(圖2),圖1到圖2相當於向右平移了一個單位,但是圖1和圖2經過max pooling之後它們都變成了相同的8x8特徵矩陣,主要的特徵我們捕獲到了,同時又將問題的規模從16x16降到了8x8,而且具有平移不變性的特點。圖中的a(或b)表示,在原始圖片中的這些a(或b)位置,最終都會映射到相同的位置。





 rotation invariance:

下圖表示漢字“一”的識別,第一張相對於x軸有傾斜角,第二張是平行於x軸,兩張圖片相當於做了旋轉,經過多次max pooling後具有相同的特徵


(3) scale invariance:
下圖表示數字“0”的識別,第一張的“0”比較大,第二張的“0”進行了較小,相當於作了縮放,同樣地,經過多次max pooling後具有相同的特徵



具體來說,左邊是圖像輸入,中間部分就是濾波器filter(帶着一組固定權重的神經元),不同的濾波器filter會得到不同的輸出數據,比如顏色深淺、輪廓。相當於如果想提取圖像的不同特徵,則用不同的濾波器filter,提取想要的關於圖像的特定信息:顏色深淺或輪廓。

如下圖所示



























發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章