誤差反向傳播算法誤差

反向傳播算法（back propagation，簡稱BP模型）是1986年由Rumelhart和McClelland爲首的科學家提出的概念，是一種按照誤差逆向傳播算法訓練的多層前饋神經網絡，是目前應用最廣泛的神經網絡。

誤差反向傳播算法系統的解決了多層神經網絡隱含層連接權學習問題，人們把採用這種算法進行誤差校正的多層前饋網絡稱爲BP網。BP神經網絡具有任意複雜的模式分類能力和優良的多維函數映射能力，解決了簡單感知器不能解決的異或(Exclusive OR，XOR)和一些其他問題。

從結構上講，BP網絡具有輸入層、隱藏層和輸出層；
從本質上講，BP算法就是以網絡誤差平方爲目標函數、採用梯度下降法來計算目標函數的最小值。

因此學習誤差反向傳播算法對於深度學習的深造起到非常重要的作用，這也是本篇博客的主題。

由於梯度下降法需要求解相鄰層的梯度，這就要求網絡中需要處處可導，也就是需要激活函數也必須支持可導性。M-P模型中使用step函數作爲激活函數，只能輸出0或1，不連續所以不可導。爲了使誤差能夠順利傳播，科學家們提出了可導函數sigmoid作爲激活函數 $f(u)$ ，但是在後期的使用中發現sigmoid函數也存在一定的問題（梯度飽和問題），於是發展出了ReLU函數及其變形激活函數，想深入瞭解激活函數的小夥伴可以查看下這篇博客：https://blog.csdn.net/ViatorSun/article/details/82418578。

1）以單層感知器入

反向傳播算法便於大家理解，下面先解釋下單層感知器的梯度下降法。由複合函數求導法則可以知道，誤差函數求導如下所示：

$\frac{\partial E}{\partial w_i} = \frac{\partial E}{\partial y}\frac{\partial y}{\partial w_i}$

設 $y=f(u)$ ，求誤差函數 $E$ 對 $w_i$ 的導數爲：

$\frac{\partial E}{\partial w_i} = -(r-y)\frac{\partial y}{\partial w_i} = -(r-y)\frac{\partial f(u)}{\partial w_i}$

$f(u)$ 的導數就是對複合函數求導

$\frac{\partial E}{\partial w_i} = -(r-y)\frac{\partial f(u)}{\partial u} \frac{\partial u}{\partial w_i}$

$u$ 對 $w_i$ 求導的結果只和 $x_i$ 相關： $\frac{\partial u}{\partial w_i} = x_i$ 整理下上面兩個式子，得到：

$\frac{\partial E}{\partial w_i} = -(r-y)x_i\frac{\partial f(u)}{\partial u}$

在此，我們對激活函數 $Sigmoid$ ： $\sigma(x) = \frac {1}{1+e^{-x}}$ 函數求導：

$\frac{\partial \sigma(x)}{\partial x} = \frac {e^{-x}}{(1+e^{-x})^2}$

令 $e^{-x} = u$ 則導函數爲：

$\frac{\partial f(u)}{\partial u} = f(u)(1-f(u))$

將激活函數的導數代入上面整理結果得到：

$\frac{\partial E}{\partial w_i} = -(r-y)x_i f(u)(1-f(u))$

由於輸出結果 $y=f(u)$ ，所以單層感知器的權重調整值爲（其中 $\eta$ 爲學習率）：

$\Delta w_i = - \eta\frac{\partial E}{\partial w_i} = \eta(r-y)y(1-y)x_i$

至此，這就是單層感知器權重的調節量。

2）多層感知器的反傳傳播算法

接下來，我們再分析下多層感知器。多層感知器的誤差函數 $E$ 等於個輸出單元的誤差總和。 $E = \frac{1}{2} \sum_{j=1}^q (r_j - y_j)^2$

對誤差函數求導得：

$\frac{\partial E}{\partial w_{ij}} = \frac{\partial E}{\partial y_j} \frac{\partial y_j}{\partial w_{ij}}$

其中， $w_{ij}$ 代表 $x_i$ 和 $y_j$ 之間的連接權重，對 $E$ 求導的結果只和 $y_j$ 相關，如下所示：

$\frac{\partial E}{\partial w_{ij}} = -(r_j - y_j) \frac{\partial y_j}{\partial w_{ij}}$

與單層感知相同，對上式展開後對複合函數求導：

$\frac{\partial E}{\partial w_{ij}} = -(r_j - y_j) \frac{\partial y_j}{\partial u_j} \frac{\partial u_j}{\partial w_{ij}}$

下面與單層感知器一樣，對誤差函數求導得：

$\frac{\partial E}{\partial w_{ij}} = -(r_j - y_j) y_j (1-y_j)x_i$

則權重的調節值爲（其中 $\eta$ 爲學習率）：

$\Delta w_{ij} = \eta(r_j - y_j )y_j (1-y_j)x_i$

由此可見，多層感知器中，只需要使用與連接權重 $w_{ij}$ 相關的輸入 $x_i$ 和輸出 $y_j$ ，即可計算出連接權重的調節值。

將神經網絡分解開可以更清晰的分析，再將最後一列各變量之間的偏導數累成就是整個鏈式法則的體現。

3）帶中間層的多層感知器的反向傳播算法

最後我們再解釋下帶中間層的多層感知器的梯度下降法。由於中間層的加入，層之間的權重下標我們增加到三個，其中 $i$ 表示輸入層單元， $j$ 表示中間層單元， $k$ 表示輸出層單元。如下圖所

首先考慮輸出層與中間層之間的連接權重 $w_{2jk}$ 的調整。對權重 $w_{2jk}$ 求導：

$\frac{\partial E}{\partial w_{2jk}} = \frac{\partial E}{\partial y_k} \frac{\partial y_k}{\partial u_{2k}} \frac{\partial u_{2k}}{\partial w_{2jk}}$

經過誤差函數 $E$ 對輸出 $y_k$ 求導，輸出 $y_k$ 求導，輸出 $y_k$ 對激活值 $u_{2k}$ 求導，激活值 $u_{2k}$ 對連接權重 $w_{2jk}$ 求導之後，得到：

$\frac{\partial E}{\partial w_{2jk}} = -(r_k - y_k) y_k ( 1-y_k) z_j$

所以，即便是輸出層有多個單元，只要對每個輸出單元分別求導後，也能得到誤差函數對中間層權重的偏導數接下來計算輸入層和中間層之間的連接權重 $w_{1ij}$ 的偏導數：

$\frac{\partial E}{\partial w_{1ij}} = \sum_{k=1}^q[ \frac{\partial E}{\partial y_k} \frac{\partial y_k}{\partial u_{2k}} \frac{\partial u_{2k}}{\partial w_{1ij}}]$

中間層的單元 $j$ 和輸出層的所有單元相連，所以如上式所示，誤差函數 $E$ 對連接權重 $W_{1ij}$ 求偏導，就是對所有輸出單元的導數進行加權和，實際使用的是所有輸出單元連接權重的總和。將 $sigmoid$ 函數的導數和誤差函數代入到上式，得：

$\frac{\partial E}{\partial w_{1ij}} = -\sum_{k=1}^q[ (r_k - y_k)y_k(1-y_k) \frac{\partial u_{2k}}{\partial w_{1ij}}]$

由於連接權重 $w_{1ij}$ 只對中間層 $z_j$ 的狀態產生影響，所以上式中剩餘部分求導後的結果如下：

$\frac{\partial u_{2k}}{\partial w_{1ij}} = \frac{\partial u_{2k}}{\partial z_j } \frac{\partial z_j}{\partial w_{1ij}}$

激活值 $u_{2k}$ 對 $z_j$ 求導得到連接權重 $w_{2jk}$ ，結合下式就可以求出輸入層與中間層之間的連接權重 $w_{1ij}$ 的調整值：

$\frac{\partial z_j}{\partial w_{1ij}} = \frac{\partial z_j}{\partial u_{1j}} \frac{\partial u_{1j}}{\partial w_{1ij}} = z_j ( 1- z_j) x_i$ $\Delta w_{1ij} = \eta \sum_{k=1}^q [ (r_k - y_k) y_k ( 1- y_k) w_{2jk} ] z_j (1-z_j) x_i$

具體推導過程可以參考下列公式

在此需要注意 $z_j=f(u_j)$ ，輸入層與中間層之間的權重調整值是相關單元在中間層與輸出層之間的權重調整值的總和。

4）小結

至此，誤差反向傳播算法的講解就全部結束了，其中包含了大量的公式，理解起來可能會有一些難度，但是這是必過的檻。如果實在不理解過程的話，只記住最後那張圖也可以，那張圖便是整個算法的精髓所在。除此之外，在實際應用過程中可能還會遇到一個問題，那就是激活函數使用 $Sigmoid$ 或者 $tanh$ 函數的時候，如果 $x$ 趨向正負無窮的時候，會出現偏導數爲零的情況，見下圖，左側爲 $Sigmoid$ 函數圖像，右側爲其導函數的圖像。這時候，由於權重調整值趨近於0，所以無法調整連接權重，權重所在的單元也就不再起作用。

這就是誤差反向傳播算法中的梯度消失導致無法調整連接權重的問題，對於這個問題，需要在訓練的過程中合理地調整學習率 $\eta$ ，以防止梯度消失。

詳解誤差反向傳播算法推導

誤差反向傳播算法誤差

1）以單層感知器入

2）多層感知器的反傳傳播算法

3）帶中間層的多層感知器的反向傳播算法

4）小結

詐騙（殺豬盤）網站進行滲透測試

Python 潮流週刊#50：我最喜歡的 Python 3.13 新特性！

【Python】保存gym截圖

【譯】使用 GitHub Copilot 作爲你的編碼 GPS

Linux 服務器配置-安裝portainer-ce社區版

外行也能讀懂的網絡硬件設備功能原理速成

pip 升級&安裝 Python 庫

Numpy 常量

搭建一臺學習主機喬思伯U1-Plus

Win10激活及圖標整理

Keras 識別驗證碼

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

詳解 誤差反向傳播算法推導

誤差反向傳播算法誤差

1） 以單層感知器入

2）多層感知器的反傳傳播算法

3） 帶中間層的多層感知器的反向傳播算法

4）小結

詳解誤差反向傳播算法推導

1）以單層感知器入

3）帶中間層的多層感知器的反向傳播算法