神經網絡梯度消失梯度彌散網絡欠擬合過擬合

原創

2020-06-29 12:58

梯度消失，沒法反向傳播了，網絡就無法訓練了。

原因，激活函數的飽和區間,常用的有飽和區間的激活函數，sigmoid，tanh,softmax, 所以中間層儘量不適用這種激活函數，使用Relu系列的解決；奇異樣本引起, 可以使用標準化（零中心化>數據 - 平均值，和歸一化>數據變小，分佈不變，奇異樣本影響就小了）來解決；層數太深的話，反向傳播時（數學角度看的話，是梯度連乘），淺層（靠近輸入層的）網絡會梯度消失, 可以加入殘差網絡來避免梯度消失；

欠擬合：

1，數據特徵項提取的不夠（針對ML,DL自動提取特徵）

2. 訓練時間不夠（DL）, 可以增加訓練時間，使模型獲取更多特徵

3.模型過於簡單(DL）, 無法提取到數據的高位特徵，加深模型以獲取更多特徵

4.減少正則化參數，正則化目的是防止過擬合的

過擬合：

經常發生的

1. 數據的噪聲過大，

2.訓練數據過少，少量數據擬合很好了，但是他不夠代表整體樣本分佈，

3. 模型訓練過度，模型過於複雜，噪聲也一塊學習到了

解決方法

1.清洗數據，降低噪聲。重新標註，2. 增加樣本量

3.採用正則化，主要包含L1和L2正則，一般是在損失之後加，他是損失函數的懲罰項

L1和L2的正則區別，首先數學上來講，L1是所有權重的絕對值的和，L2是所有權重的平方的和開根號

首先要先了解模型的複雜度，是和參數的向量有關的，參數越多模型越複雜，所以我們做正則化，

實際是可以讓模型參數趨近於0或者等於0，相當於模型參數減少，這樣模型複雜度降低。

L1正則有稀疏性，即更容易有參數爲0，

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

神經網絡梯度消失梯度彌散網絡欠擬合過擬合

杭州的 IT 崩盤了麼？

雲原生週刊：Kubernetes 十週年｜ 2024.6.11

開源高性能結構化日誌模塊NanoLog

Python 潮流週刊#55：分享 9 個高質量的技術類信息源！

WinForm應用實戰開發指南 - 表格數據錄入問題解析

Azure Virtual Network (22) 多訂閱使用Azure DNS解析問題 Windows Azure Platform 系列文章目錄

【簡寫Mybatis-02】註冊機的實現以及SqlSession處理

手繪二維碼

.NET藉助虛擬網卡實現一個簡單異地組網工具

強化學習（Reinforcement Learning, RL）

神經網絡梯度消失梯度彌散網絡欠擬合過擬合

java 虛擬機對於類的裝載順序

搞懂BIO NIO AIO的原理區別

卷積設計

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

神經網絡 梯度消失 梯度彌散 網絡欠擬合 過擬合

神經網絡梯度消失梯度彌散網絡欠擬合過擬合