機器智能-高頻問題：Lenet框架&卷積神經網絡概念

4、Lenet框架（最簡單的卷積神經網絡）數字分類網絡

a、名詞
①、comvolutions：卷積層
②、subsamping：池化層
③、full connection：全連接層
b、一個完整的CNN

卷積層和池化層負責特徵提取。
全連接層負責預測，產生一個概率。如果是單分類問題，全連接層的概率相加爲1。
當該圖作爲輸入的時候，網絡正確的給船的分類賦予了最高的概率(0.94)。輸出層的各個概率相加應爲1。
卷積神經網絡主要執行了四個操作：
①、卷積
②、激活函數(ReLU)
③、池化或下采樣
④、分類（全連接層）
5、輸入層：
a、圖片在計算機中一般以三組二維矩陣的形式進行存儲。三個矩陣分別表示R、G、B值，每個圖片都可以表示爲像素值組成的矩陣。
b、通道：圖片的特定成分。數碼相機照片有三個通道——RGB，可以想象爲是三個2d矩陣疊在一起，每個矩陣的值都在0-255之間。
c、灰度圖像只有單通道。矩陣中的每個像素值還是0到255，0表示白，255表示黑。
d、數據必須轉爲數字的形式，不能以字符的形式
6、卷積層：

a、filter：卷積核，或者說濾波器，其值是通過網絡訓練得到的。初始值是隨機產生的，但是會通過學習進行一個參數的調整。
b、卷積操作：在原始圖片（綠色）上從左往右、從上往下按照一定步數滑動橙色矩陣，並且在每個位置上，我們都對兩個矩陣的對應元素相乘後求和得到一個整數，這就是輸出矩陣（粉色）的元素。注意，3x3矩陣每次只“看見”輸入圖片的一部分，即局部感受野。
c、Convolved Feature：特徵矩陣，在原圖上滑動濾波器、點乘矩陣所得的矩陣稱爲“卷積特徵”、“激勵映射”或“特徵映射”。是原始輸入經過卷積核經過卷積操作之後產生的一個特徵矩陣。

d、深度(Depth)：深度就是卷積操作中用到的濾波器個數。這裏對圖片用了兩個不同的濾波器，從而產生了兩個特徵映射。你可以認爲這兩個特徵映射也是堆疊的2d矩陣，所以這裏特徵映射的“深度”就是2。有多少深度，就會產生多少個輸出。
e、由於最終得到的特徵需要扁平化，而且單維度不能夠表達圖片信息，所以一般來講會把R、G、B三個通道的值相加。
f、步幅(Stride)：步幅是每次滑過的像素數。當Stride=2的時候每次就會滑過2個像素。步幅越大，特徵映射越小。
g、補零(Zero-padding)：邊緣補零，對圖像矩陣的邊緣像素也施加濾波器。補零的好處是讓我們可以控制特徵映射的尺寸。補零也叫寬卷積，不補零就叫窄卷積。
h、權值共享：所有的像素點共享過濾器的權值，極大地減少了網絡中的參數數量。
i、局部感知：一個像素點不能表達信息，像素點與像素點之間是有關係的。通過卷積核，可以一次性採取多個像素，共同提取特徵。可以更好地提取特徵。
7、激活函數：
a、若不用激勵函數（即f(x) = x），則每一層節點的輸入都是上層輸出的線性函數。無論神經網絡有多少層，輸出都是輸入的線性組合，這種情況就是最原始的感知機了，那麼網絡的逼近能力就相當有限。因此我們引入非線性函數作爲激勵函數，這樣深層神經網絡表達能力就更加強大（不再是輸入的線性組合，而是幾乎可以逼近任意函數）。
b、常見的激活函數有：
①、Sigmoid

左側分佈圖，右側爲導數圖
它能夠把輸入的連續實值變換爲0和1之間的輸出。
但是存在梯度消失問題，在-5到5之間的時候梯度是急劇變化的，但之外的情況梯度基本爲0。
輸出非zero-centered，是以0.5爲中心而不是以0爲中心的函數。
其解析式中含有冪運算，計算機求解時相對來講比較耗時。對於規模比較大的深度網絡，這會較大地增加訓練時間。
最好不要在中間層使用，一般在最後一層使用，用的越少越好。
②、tanh

tanh解決了Sigmoid函數的不是zero-centered輸出問題，然而，梯度消失問題和冪運算問題仍然存在。
③、relu
在CNN網絡中用的非常多

解決了梯度消失問題 (在正區間)。
計算速度非常快，只需要判斷輸入是否大於0。
收斂速度遠快於sigmoid和tanh
ReLU的輸出不是zero-centered
Dead ReLU Problem，指的是某些神經元可能永遠不會被激活，導致相應的參數永遠不能被更新。當某些神經元的輸出值爲負值的時候，這些神經元就不會被激活。
他有很多變種：
Leaky ReLU

理論上來說，Leaky ReLU擁有ReLU的所有優點，外加不會有Dead ReLU problem，但是在實際操作中，並沒有完全證明Leaky ReLU總是好於ReLU。
有些研究者的論文指出這個激活函數表現很不錯，但是其效果並不是很穩定。
Parametric ReLU

PReLU是ReLU和LReLU的改進版本，具有非飽和性。
與LReLU相比，PReLU中的負半軸斜率a由back propagation學習而非固定。原文獻建議初始化a爲0.25。
Randomized Leaky ReLU

數學形式與PReLU類似，但RReLU是一種非確定性激活函數，其參數是隨機的。這種隨機性類似於一種噪聲，能夠在一定程度上起到正則效果。
8、池化層：
a、空間池化，也叫亞採樣或下采樣，降低了每個特徵映射的維度，但是保留了最重要的信息。實際上就是降低緯度。
b、空間池化可以有很多種形式：最大(Max)，平均(Average)，求和(Sum)等等。最大池化成效最好。選擇最大值、平均值、和等等

c、池化層的功能
①、減少網絡中的參數計算數量，從而遏制過擬合
②、增強網絡對輸入圖像中的小變形、扭曲、平移的魯棒性(輸入裏的微小扭曲不會改變池化輸出——因爲我們在局部鄰域已經取了最大值/平均值)。
③、幫助我們獲得不因尺寸而改變的等效圖片表徵。這非常有用，因爲這樣我們就可以探測到圖片裏的物體，不論那個物體在哪。
可能會降低清晰度，但可以在降低圖片維度的情況下保留信息。
9、全連接層：
a、使用softmax激勵函數作爲輸出層的多層感知機。與sigmoid相似。
b、卷積層和池化層得到的數據一般是二維特徵，無法直接給全連接層，需要將二維矩陣通過拼接轉換成一維向量形式。然後再給全連接層進行分類。
c、全連接表示上一層的每一個神經元，都和下一層的每一個神經元是相互連接的。
d、卷積層和池化層的輸出代表了輸入圖像的高級特徵，全連接層的目的就是類別基於訓練集用這些特徵進行分類。
e、除了分類以外，加入全連接層也是學習特徵之間非線性組合的有效辦法。
f、一般來講只有2-3層，以免時間過長