機器智能-高頻問題:Lenet框架&卷積神經網絡概念

4、Lenet框架(最簡單的卷積神經網絡)數字分類網絡
在這裏插入圖片描述
在這裏插入圖片描述
a、名詞
①、comvolutions:卷積層
②、subsamping:池化層
③、full connection:全連接層
b、一個完整的CNN
在這裏插入圖片描述
在這裏插入圖片描述
卷積層和池化層負責特徵提取。
全連接層負責預測,產生一個概率。如果是單分類問題,全連接層的概率相加爲1。
當該圖作爲輸入的時候,網絡正確的給船的分類賦予了最高的概率(0.94)。輸出層的各個概率相加應爲1。
卷積神經網絡主要執行了四個操作:
①、卷積
②、激活函數(ReLU)
③、池化或下采樣
④、分類(全連接層)
5、輸入層:
a、圖片在計算機中一般以三組二維矩陣的形式進行存儲。三個矩陣分別表示R、G、B值,每個圖片都可以表示爲像素值組成的矩陣。
b、通道:圖片的特定成分。數碼相機照片有三個通道——RGB,可以想象爲是三個2d矩陣疊在一起,每個矩陣的值都在0-255之間。
c、灰度圖像只有單通道。矩陣中的每個像素值還是0到255,0表示白,255表示黑。
d、數據必須轉爲數字的形式,不能以字符的形式
6、卷積層:
在這裏插入圖片描述在這裏插入圖片描述
a、filter:卷積核,或者說濾波器,其值是通過網絡訓練得到的。初始值是隨機產生的,但是會通過學習進行一個參數的調整。
b、卷積操作:在原始圖片(綠色)上從左往右、從上往下按照一定步數滑動橙色矩陣,並且在每個位置上,我們都對兩個矩陣的對應元素相乘後求和得到一個整數,這就是輸出矩陣(粉色)的元素。注意,3x3矩陣每次只“看見”輸入圖片的一部分,即局部感受野。
c、Convolved Feature:特徵矩陣,在原圖上滑動濾波器、點乘矩陣所得的矩陣稱爲“卷積特徵”、“激勵映射”或“特徵映射”。是原始輸入經過卷積核經過卷積操作之後產生的一個特徵矩陣。
在這裏插入圖片描述
d、深度(Depth):深度就是卷積操作中用到的濾波器個數。這裏對圖片用了兩個不同的濾波器,從而產生了兩個特徵映射。你可以認爲這兩個特徵映射也是堆疊的2d矩陣,所以這裏特徵映射的“深度”就是2。有多少深度,就會產生多少個輸出。
e、由於最終得到的特徵需要扁平化,而且單維度不能夠表達圖片信息,所以一般來講會把R、G、B三個通道的值相加。
f、步幅(Stride):步幅是每次滑過的像素數。當Stride=2的時候每次就會滑過2個像素。步幅越大,特徵映射越小。
g、補零(Zero-padding):邊緣補零,對圖像矩陣的邊緣像素也施加濾波器。補零的好處是讓我們可以控制特徵映射的尺寸。補零也叫寬卷積,不補零就叫窄卷積。
h、權值共享:所有的像素點共享過濾器的權值,極大地減少了網絡中的參數數量。
i、局部感知:一個像素點不能表達信息,像素點與像素點之間是有關係的。通過卷積核,可以一次性採取多個像素,共同提取特徵。可以更好地提取特徵。
7、激活函數:
a、若不用激勵函數(即f(x) = x),則每一層節點的輸入都是上層輸出的線性函數。無論神經網絡有多少層,輸出都是輸入的線性組合,這種情況就是最原始的感知機了,那麼網絡的逼近能力就相當有限。因此我們引入非線性函數作爲激勵函數,這樣深層神經網絡表達能力就更加強大(不再是輸入的線性組合,而是幾乎可以逼近任意函數)。
b、常見的激活函數有:
①、Sigmoid
在這裏插入圖片描述
在這裏插入圖片描述左側分佈圖,右側爲導數圖
它能夠把輸入的連續實值變換爲0和1之間的輸出。
但是存在梯度消失問題,在-5到5之間的時候梯度是急劇變化的,但之外的情況梯度基本爲0。
輸出非zero-centered,是以0.5爲中心而不是以0爲中心的函數。
其解析式中含有冪運算,計算機求解時相對來講比較耗時。對於規模比較大的深度網絡,這會較大地增加訓練時間。
最好不要在中間層使用,一般在最後一層使用,用的越少越好。
②、tanh
在這裏插入圖片描述
在這裏插入圖片描述
tanh解決了Sigmoid函數的不是zero-centered輸出問題,然而,梯度消失問題和冪運算問題仍然存在。
③、relu
在CNN網絡中用的非常多
在這裏插入圖片描述
在這裏插入圖片描述
解決了梯度消失問題 (在正區間)。
計算速度非常快,只需要判斷輸入是否大於0。
收斂速度遠快於sigmoid和tanh
ReLU的輸出不是zero-centered
Dead ReLU Problem,指的是某些神經元可能永遠不會被激活,導致相應的參數永遠不能被更新。當某些神經元的輸出值爲負值的時候,這些神經元就不會被激活。
他有很多變種:
Leaky ReLU
在這裏插入圖片描述
理論上來說,Leaky ReLU擁有ReLU的所有優點,外加不會有Dead ReLU problem,但是在實際操作中,並沒有完全證明Leaky ReLU總是好於ReLU。
有些研究者的論文指出這個激活函數表現很不錯,但是其效果並不是很穩定。
Parametric ReLU
在這裏插入圖片描述
PReLU是ReLU和LReLU的改進版本,具有非飽和性。
與LReLU相比,PReLU中的負半軸斜率a由back propagation學習而非固定。原文獻建議初始化a爲0.25。
Randomized Leaky ReLU
在這裏插入圖片描述
數學形式與PReLU類似,但RReLU是一種非確定性激活函數,其參數是隨機的。這種隨機性類似於一種噪聲,能夠在一定程度上起到正則效果。
8、池化層:
a、空間池化,也叫亞採樣或下采樣,降低了每個特徵映射的維度,但是保留了最重要的信息。實際上就是降低緯度。
b、空間池化可以有很多種形式:最大(Max),平均(Average),求和(Sum)等等。最大池化成效最好。選擇最大值、平均值、和等等
在這裏插入圖片描述
c、池化層的功能
①、減少網絡中的參數計算數量,從而遏制過擬合
②、增強網絡對輸入圖像中的小變形、扭曲、平移的魯棒性(輸入裏的微小扭曲不會改變池化輸出——因爲我們在局部鄰域已經取了最大值/平均值)。
③、幫助我們獲得不因尺寸而改變的等效圖片表徵。這非常有用,因爲這樣我們就可以探測到圖片裏的物體,不論那個物體在哪。
可能會降低清晰度,但可以在降低圖片維度的情況下保留信息。
9、全連接層:
a、使用softmax激勵函數作爲輸出層的多層感知機。與sigmoid相似。
b、卷積層和池化層得到的數據一般是二維特徵,無法直接給全連接層,需要將二維矩陣通過拼接轉換成一維向量形式。然後再給全連接層進行分類。
c、全連接表示上一層的每一個神經元,都和下一層的每一個神經元是相互連接的。
d、卷積層和池化層的輸出代表了輸入圖像的高級特徵,全連接層的目的就是類別基於訓練集用這些特徵進行分類。
e、除了分類以外,加入全連接層也是學習特徵之間非線性組合的有效辦法。
f、一般來講只有2-3層,以免時間過長

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章