梯度消失,沒法反向傳播了,網絡就無法訓練了。
原因,激活函數的飽和區間,常用的有飽和區間的激活函數,sigmoid,tanh,softmax, 所以中間層儘量不適用這種激活函數,使用Relu系列的解決; 奇異樣本引起, 可以使用標準化(零中心化>數據 - 平均值 , 和 歸一化>數據變小,分佈不變,奇異樣本影響就小了)來解決;層數太深的話,反向傳播時(數學角度看的話,是梯度連乘),淺層(靠近輸入層的)網絡會梯度消失, 可以加入殘差網絡來避免梯度消失;
欠擬合:
1, 數據特徵項提取的不夠(針對ML,DL自動提取特徵)
2. 訓練時間不夠(DL), 可以增加訓練時間,使模型獲取更多特徵
3.模型過於簡單(DL), 無法提取到數據的高位特徵,加深模型以獲取更多特徵
4.減少正則化參數,正則化目的是防止過擬合的
過擬合:
經常發生的
1. 數據的噪聲過大,
2.訓練數據過少,少量數據擬合很好了,但是他不夠代表整體樣本分佈,
3. 模型訓練過度,模型過於複雜,噪聲也一塊學習到了
解決方法
1.清洗數據,降低噪聲。重新標註,2. 增加樣本量
3.採用正則化, 主要包含L1和L2正則,一般是在損失之後加,他是損失函數的懲罰項
L1和L2的正則區別,首先數學上來講,L1是所有權重的絕對值的和,L2是所有權重的平方的和開根號
首先要先了解模型的複雜度,是和參數的向量有關的,參數越多模型越複雜,所以我們做正則化,
實際是可以讓模型參數趨近於0或者等於0,相當於模型參數減少,這樣模型複雜度降低。
L1正則有稀疏性,即更容易有參數爲0,