神經網絡學習筆記（十一）:多層感知機（下）

在上一章節中介紹了多層感知機最關鍵的BP算法，在這一節中主要對包括BP算法在內的多層感知機的一些細節問題進行概述。

激活函數

BP算法中計算多層感知機每一個 $\delta$ 需要神經元的激活函數 $\varphi \left ( \cdot \right )$ 的導數知識。從根本上講激活函數必須滿足的要求是可微性。通常用於多層感知機的連續可微非線性函數的一個例子是sigmoid；這裏有兩種形式：

1、logistic函數：

$\varphi _{j}\left ( v_{j}\left ( n \right ) \right )=\frac{1}{1+exp\left ( -av_{j}\left ( n \right ) \right )}\ ,a>0$ （1.1）

這裏， $v_{j}\left ( n \right )$ 是神經元j的誘導局部域。根據這種非線性性，輸出的範圍位於 $0\leq y_{j}\leq 1$ 之內。對式（1.1）兩邊取 $v_{j}\left ( n \right )$ 的微分，得：

$\varphi' _{j}\left ( v_{j}\left ( n \right ) \right )=\frac{aexp\left ( -av_{j}\left ( n \right ) \right )}{\left [ 1+exp\left ( -av_{j}\left ( n \right ) \right ) \right ]^{2}}$ （1.2）

由於 $y_{j}\left ( n \right )=\varphi _{j}\left ( v_{j}\left ( n \right ) \right )$ ，所以導數可以表示爲：

$\varphi' _{j}\left ( v_{j}\left ( n \right ) \right )=ay_{j}\left ( n \right )\left ( 1-y_{j}\left ( n \right ) \right )$ （1.3）

如果神經元j位於輸出層， $y_{j}\left ( n \right )=o _{j}\left (n\right )$ ，其中 $o _{j}\left (n\right )$ 爲輸出層的神經元j的輸出結果。因此神經元j的局域梯度可表示爲：

$\delta _{j}\left (n\right )=e_{j}\left ( n \right )\varphi' _{j}\left ( v_{j}\left ( n \right ) \right )=a\left ( d_{j}\left ( n \right )-o_{j}\left ( n \right ) \right )o_{j}\left ( n \right )\left ( 1-o_{j}\left ( n \right ) \right )$ （1.4）

這裏 $d_{j}\left ( n \right )$ 是輸出層的神經元j的期望響應。對任意一個隱藏層的神經元，可以將局域梯度表示爲：

$\delta _{j}\left (n\right )=\varphi' _{j}\left ( v_{j}\left ( n \right ) \right )\sum_{k}\delta _{k}\left ( n \right )w_{kj}\left ( n \right )=ay_{j}\left ( n \right )\left ( 1-y_{j}\left ( n \right ) \right )\sum_{k}\delta _{k}\left ( n \right )w_{kj}\left ( n \right )$ （1.5）

從式（1.3）可以看出，導數 $\varphi'_{j}\left ( v_{j}\left ( n \right ) \right )$ 當 $y_{j}\left ( n \right )$ =0.5時取最大值，當 $y_{j}\left ( n \right )$ =0或1時取最小值0。因此突觸權值改變最多的是那些函數信號位於他們的中間範圍之間的網絡神經元。正是反向傳播的這個特點導致它作爲學習算法的穩定性。

2、雙曲正切函數：

$\varphi _{j}\left ( v_{j}\left ( n \right ) \right )=atanh\left ( bv_{j}\left ( n \right ) \right )$ （1.6）

它對 $v_{j}\left ( n \right )$ 的導數如下：

$\varphi' _{j}\left ( v_{j}\left ( n \right ) \right )=\frac{b}{a}\left [ a-y_{j}\left ( n \right ) \right ]\left [ a+y_{j}\left ( n \right ) \right ]$ （1.7）

如果神經元j位於輸出層，它的局域梯度是：

$\delta _{j}\left (n\right )=e_{j}\left ( n \right )\varphi' _{j}\left ( v_{j}\left ( n \right ) \right )=\frac{b}{a}\left [ d_{j}\left ( n \right )-o_{j}\left ( n \right ) \right ]\left [ a-o_{j}\left ( n \right ) \right ]\left [ a+o_{j}\left ( n \right ) \right ]$ （1.8）

如果神經元j位於隱藏層，有：

$\delta _{j}\left (n\right )=\varphi' _{j}\left ( v_{j}\left ( n \right ) \right )\sum_{k}\delta _{k}\left ( n \right )w_{kj}\left ( n \right )=\frac{b}{a} \left ( a-y_{j}\left ( n \right ) \right )\left ( a+y_{j}\left ( n \right ) \right )\sum_{k}\delta _{k}\left ( n \right )w_{kj}\left ( n \right )$ （1.9）

對logistic函數用（1.4）以及（1.5），對雙曲函數使用（1.8）以及（1.9），不需要激活函數的具體信息就可以計算局域梯度 $\delta _{j}$ 。

學習率：

反向傳播算法提供使用最速下降方法在權空間計算得到的軌跡的一種近似。使用的學習率參數η越小，從一次迭代到下一次迭代的網絡突觸權值的變化量越小，軌跡在權值空間就越光滑。然而，這種改進是以減慢學習速度爲代價的。另一方面，如果讓η的值太大以加快學習速度的話，結果可能使網絡的突觸權值的變化量不穩定（即震盪）。一個即加快學習速度又要保持穩定的簡單方法是如下的廣義delta法則：

$\Delta w_{ji}\left ( n \right )=a\Delta w_{ji}\left ( n-1 \right )+\eta \delta _{j}\left ( n \right )y_{j}\left ( n \right )$ （1.10）

這裏a稱爲動量常數，通常是正數，爲了觀察動量常數對突觸權值的影響，將式（1.10）重寫爲一個時間序列：

$\Delta w_{ji}\left ( n \right )=\eta \sum_{t=0}^{n}a^{n-t}\delta _{j}\left ( t \right )y_{j}\left ( t \right )$ （1.11）

又由於 $\delta _{j}\left ( n \right )y_{j}\left ( n \right )$ 等於 $-\partial \mathbb{E}\left ( n \right )/\partial w_{ji}\left ( n \right )$ ，因此

$\Delta w_{ji}\left ( n \right )=-\eta \sum_{t=0}^{n}a^{n-t}\frac{\partial \mathbb{E}\left ( t \right )}{\partial w_{ji}\left ( t \right )}$ （1.12）

在這個關係的基礎上，來做深入的分析：

1、當前修正值 $\Delta w_{ji}\left ( n \right )$ 代表指數加權的時間序列的和。欲使時間序列收斂，動量常量的絕對值必須限制在0到1之間。當a等於0時，相當於（1.10）中沒有第一項。

2、當偏導數 $\partial \mathbb{E}\left ( t \right )/\partial w_{ji}\left ( t \right )$ 在連續迭代中有相同的代數符號，指數加權和 $\Delta w_{ji}\left ( n \right )$ 在數量上增加，所以，權值被大幅調整。趨於在穩定的下降方向加速下降。

3、當偏導數 $\partial \mathbb{E}\left ( t \right )/\partial w_{ji}\left ( t \right )$ 在迭代中有相反的代數符號，指數加權和 $\Delta w_{ji}\left ( n \right )$ 在數量上減少，所以，權值調整不大。迭代中呈現一種左右擺動的穩定效果。

停止準則

通常不能證明反向傳播算法是收斂的，並且沒有明確定義的算法停止準則。相反，僅有一些合理的準則，它們每個都有自己的實際用處，這些準則可以用於終止權值的調整。要提出這樣一個準則，考慮關於誤差曲面的局部或全局最小的特殊性質是符合邏輯的。將權值向量w*標記爲局部或全局最小點。要使w*成爲最小點的一個必要條件是梯度向量g(w)在w=w*點爲0。可以以此提出一個合理的收斂準則：

當梯度向量的歐幾里得範數達到一個充分小的梯度閾值時，我們認爲反向傳播算法已經收斂。

另一個能夠使用的最小點特性是誤差度量在w=w*是平穩的，因此可以提出另一個不同的收斂準則：

當每一回合的均方誤差變化的絕對速率足夠小時，我們認爲反向傳播算法已經收斂。

但是這兩個收斂準則都有其明顯缺點。另外一個收斂準則就是檢查神經網絡的泛化性能，當泛化性能達到峯值時，停止迭代。

下面給出反向傳播算法計算局域梯度的一個信號流程圖

神經網絡學習筆記（十一）:多層感知機（下）

激活函數

學習率：

停止準則

再談23種設計模式（3）：行爲型模式（學習筆記）

Power Automate Desktop 安裝完，登錄後老是提示one driver 錯誤

微前端學習筆記(4):從微前端到微模塊之EMP與hel-micro方案探索

微前端學習筆記（1）：微前端總體架構概述，從微服務發微

985 碩士程序員，空窗 4 個月沒有 Offer！

一文搞懂 Spring 循環依賴

賽博鬥地主——使用大語言模型扮演Agent智能體玩牌類遊戲。

VScode右鍵打開(添加到右鍵)

記一次 .NET某工控視覺自動化系統卡死分析

WindowsServer--SQL Server搭建主從同步實現讀寫分離 - 事務性分發

神經網絡學習筆記（七）：線性迴歸模型（上）

神經網絡學習筆記（四）

神經網絡學習筆記（十）:多層感知機（中）--BP算法

使用MLP解決OCR問題（OpenCV）（上）

神經網絡學習筆記（五）:感知機

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結