神經網絡訓練中的梯度消失與梯度爆炸

原創

2020-03-28 12:46

層數比較多的神經網絡模型在訓練時也是會出現一些問題的，其中就包括梯度消失問題（gradient vanishing problem）和梯度爆炸問題（gradient exploding problem）。梯度消失問題和梯度爆炸問題一般隨着網絡層數的增加會變得越來越明顯。

例如，對於下圖所示的含有3個隱藏層的神經網絡，梯度消失問題發生時，接近於輸出層的hidden layer 3層的權值更新相對正常，但前面的hidden layer 1的權值更新會變得很慢，導致前面的層權值幾乎不變，仍接近於初始化的權值，這就導致hidden layer 1相當於只是一個映射層，對所有的輸入做了一個同一映射，這是此深層網絡的學習就等價於只有後幾層的淺層網絡的學習了。

而這種問題爲何會產生呢？以下圖的反向傳播爲例（假設每一層只有一個神經元且對於每一層 $y_{i}=\sigma\left(z_{i}\right)=\sigma\left(w_{i} x_{i}+b_{i}\right)$ ，其中 $\sigma$ 爲sigmoid函數）

可以推導出

而sigmoid的導數 $\sigma^{\prime}(x)$ 如下圖

可見， $\sigma^{\prime}(x)$ 的最大值爲1/4，而我們初始化的網絡權值 $|w|$ 通常都小於1，因此 $\left|\sigma^{\prime}(z) w\right| \leq \frac{1}{4}$ ，因此對於上面的鏈式求導，層數越多，求導結果 $\frac{\partial C}{\partial b_{1}}$ 越小，因而導致梯度消失的情況出現。

這樣，梯度爆炸問題的出現原因就顯而易見了，即 $\left|\sigma^{\prime}(z) w\right|>1$ ，也就是 $w$ 比較大的情況。但對於使用sigmoid激活函數來說，這種情況比較少。因爲 $\sigma^{\prime}(x)$ 的大小也與 $w$ 有關（ $(z=w x+b)$ ），除非該層的輸入值 $x$ 在一直一個比較小的範圍內。

其實梯度爆炸和梯度消失問題都是因爲網絡太深，網絡權值更新不穩定造成的，本質上是因爲梯度反向傳播中的連乘效應。對於更普遍的梯度消失問題，可以考慮用ReLU激活函數取代sigmoid激活函數。另外，LSTM的結構設計也可以改善RNN中的梯度消失問題。

參考文章

1.https://zhuanlan.zhihu.com/p/25631496

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

神經網絡訓練中的梯度消失與梯度爆炸

參考文章

公司新來一個幹練小夥，把 MyBatis 替換成 MyBatis-Plus，上線後哭暈在廁所。。。

支持非IE瀏覽器真的那麼難嗎？

爲啥就那麼痛恨IE？

2024 開源數據工程生態系統全景圖

Brian Sun：回覆“爲啥就那麼痛恨IE？”

【筆記】動手學深度學習-前言

體驗下，大廠在使用功能的API網關！

見鬼了！我家的 WiFi 只有下雨天才能正常使用...

短視頻文案提取原來如此簡單

oa系統集成及案例樣式

111. Minimum Depth of Binary Tree windliang

110.Balanced Binary Tree

106.Construct Binary Tree from Inorder and Postorder Traversal

模擬登錄淘寶，清空購物車

TensorFlow 2.0深度學習算法實戰(一)

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結