什麼是高偏差/高分差?
高偏差:如果訓練集和測試集的誤差率都在15%左右,欠擬合,訓練不充分。
高分差:如果訓練集誤差率爲1%,測試集誤差率爲15%,過擬合,測試誤差高。
如何解決高偏差
如何解決高分差
正則化
在降低代價函數值得同時,將會對網絡的結構進行簡化,此時可以有效的防止過擬合的問題。
L2正則化
J正則化=−m1i=1∑m(YlogA+(1−Y)log(1−A))+m12λl∑k∑j∑Wk,j[l]2
其中,∑l∑k∑jWk,j[l]2代碼爲=np.sum(np.square(Wl))。
dropout正則化
每次迭代過程中隨即將其中的一些節點失效。遍歷每層的神經元節點,並設置每層節點隨機消失的概率。例如,我們設置所有節點有0.5的概率會消失,在完成這個過程後,會發現有一些節點現在已經被消失,然後,刪除掉與這些節點關聯的連線。此時,會得到一個節點更少,網絡更加簡單的模型結構,對於該樣本,以同樣的結構進行前向傳播和反向傳播。當下一樣本輸入時,需要重新隨機選擇節點置爲失效並進行前向傳播和反向傳播。
ps:
1、由於dropout正則化會隨即置節點失效,因此不方便算代價值。
2、在進行驗證,測試或應用時,不再適用Dropout函數進行隨機失效處理, 主要原因是因爲在測試或驗證階段,我們不希望輸出的結果是隨機的。
什麼是梯度消失/梯度下降
梯度消失:當網絡很深時,w值很大,y^呈指數式增長。
梯度下降:當網絡很深時,w值很小,y^呈指數式下降。
梯度校驗
即導數校驗,θ點的梯度=θ點的導數=g′(θ)≈2ξf(θ+ξ)−f(θ−ξ),
dQapprox=2ξJ(θ+ξ)−J(θ−ξ)
error=∣∣dQapprox∣∣+∣∣dQ∣∣2∣∣dQapprox−dQ∣∣2