神經網絡 梯度消失 梯度彌散 網絡欠擬合 過擬合

梯度消失,沒法反向傳播了,網絡就無法訓練了。

原因,激活函數的飽和區間,常用的有飽和區間的激活函數,sigmoid,tanh,softmax, 所以中間層儘量不適用這種激活函數,使用Relu系列的解決; 奇異樣本引起, 可以使用標準化(零中心化>數據 - 平均值 , 和 歸一化>數據變小,分佈不變,奇異樣本影響就小了)來解決;層數太深的話,反向傳播時(數學角度看的話,是梯度連乘),淺層(靠近輸入層的)網絡會梯度消失,  可以加入殘差網絡來避免梯度消失;

欠擬合:

1, 數據特徵項提取的不夠(針對ML,DL自動提取特徵)

2. 訓練時間不夠(DL), 可以增加訓練時間,使模型獲取更多特徵

3.模型過於簡單(DL), 無法提取到數據的高位特徵,加深模型以獲取更多特徵

4.減少正則化參數,正則化目的是防止過擬合的

 

過擬合:

經常發生的

1. 數據的噪聲過大, 

2.訓練數據過少,少量數據擬合很好了,但是他不夠代表整體樣本分佈,

3. 模型訓練過度,模型過於複雜,噪聲也一塊學習到了

解決方法

1.清洗數據,降低噪聲。重新標註,2. 增加樣本量

3.採用正則化, 主要包含L1和L2正則,一般是在損失之後加,他是損失函數的懲罰項

L1和L2的正則區別,首先數學上來講,L1是所有權重的絕對值的和,L2是所有權重的平方的和開根號

首先要先了解模型的複雜度,是和參數的向量有關的,參數越多模型越複雜,所以我們做正則化,

實際是可以讓模型參數趨近於0或者等於0,相當於模型參數減少,這樣模型複雜度降低。

L1正則有稀疏性,即更容易有參數爲0,

 

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章