前饋網絡及反向傳播

本文主要介紹多層感知器模型（MLP），它也可以看成是一種logister迴歸，輸入層通過非線性轉換，即通過隱含層把輸入投影到線性可分的空間中。

如果我們在中間加一層神經元作爲隱含層，則它的結構如下圖所示

單隱層的MLP定義了一個映射：，其中 D和L爲輸入向量和輸出向量f(x)的大小。

隱含層與輸出層神經元的值通過激活函數計算出來，例如下圖：如果我們選用sigmoid作爲激活函數，輸入設爲x，要求出隱含層的激活值a，公式如下。其中。

同理輸出的h(x)可以用同樣的公式得到，上述過程就是向前傳導，因爲這種聯接圖沒有閉環或迴路。

我們可以用反向傳播法(backpropagation)來訓練上面這個神經網絡。下面主要介紹backpropation算法。

假設對於單個樣例(x,y)，它的代價函數(cost function)爲

對於一個樣本集，定義它的cost function爲：

我們要做的就是最小化上述式子，類似於最小二乘，不同的是加上了第二項的權重衰減，它是用來防止過擬合，可以把它看成是一個約束項，而整個式子就是求解最值的拉格朗日公式。我們的目標是針對參數和來求其函數的最小值。爲了求解神經網絡，我們需要將每一個參數和初始化爲一個很小的、接近零的隨機值（比如說，使用正態分佈生成的隨機值，其中設置爲），之後對目標函數使用諸如批量梯度下降法的最優化算法。關於w和b的初值，我根據這篇論文(Understanding the difficulty of training deep feedforward neuralnetworks)得出的結論：如果激活函數爲tanh，我們設置爲之間的值，如果激活函數是sigmoid,則是。

關於反向傳播算法的推導，UFLDL 中介紹的很清楚，我直接粘帖過來了。

既然是用梯度下降法，我們先對代價函數J求關於w和b 的偏導數，直接寫出結果：

反向傳播算法的思路如下：給定一個樣例，我們首先進行"前向傳導"運算，計算出網絡中所有的激活值，包括的輸出值。之後，針對第層的每一個節點，我們計算出其"殘差" ，該殘差表明了該節點對最終輸出值的殘差產生了多少影響。對於最終的輸出節點，我們可以直接算出網絡產生的激活值與實際值之間的差距，我們將這個差距定義爲（第層表示輸出層）。對於隱藏單元我們如何處理呢？我們將基於節點（譯者注：第層節點）殘差的加權平均值計算，這些節點以作爲輸入。下面將給出反向傳導算法的細節：