背景知識
1 訓練誤差與泛化誤差
訓練誤差,顧名思義,就是在訓練集上表現出的誤差,而後者是通過訓練得到的模型在任意一個測試集上表現出的誤差的期望,但通常直接通過測試集上的誤差即(測試誤差)來近似。
假設學習到的模型是 Y=f^(X),則
訓練誤差 是模型關於訓練數據集的平均損失:
Remp(f^)=N1i=1∑NL(yi,f^(xi)),N爲訓練樣本容量
測試誤差 是模型關於測試數據集的平均誤差:
etest=N′1i=1∑N′L(yi,f^(xi)),N′爲測試樣本容量
訓練誤差小不代表泛化誤差也小,我們評判一個模型的好壞一般不以訓練誤差小來評判,主要以測試誤差小來評判,因爲測試誤差小的方法具有更好的預測能力,從而模型的泛化能力要更好。
2 欠擬合和過擬合
模型訓練中通常會出現兩個問題:
- 欠擬合:模型的訓練誤差較高
- 過擬合:模型的訓練誤差遠小於模型的測試誤差
其中欠擬合問題是比較好解決的,比如修改模型,或者增加訓練迭代次數,調整學習率等超參數,都可以慢慢訓練出較低訓練誤差的模型,但是過擬合問題是比較難解決的。最簡單的解決方法就是增加數據集大小,但是數據集是很昂貴的,所以獲取更多數據集不是很簡單。
那麼,正則化就是解決模型過擬合的方法。
正則化
1、奧卡姆剃刀思想
在同樣能夠解釋已知觀測現象的假設中,我們應該挑選“最簡單”的那一個。
2、正則化原理
正則化是結構風險最小化策略的實現,若要正則化一個學習函數f(x;θ)的模型,則可以給代價函數添加一個稱爲正則化項的懲罰。
一般具有如下形式:minck
f∈FminN1i=1∑NL(yi,f(xi))+λJ(f)
,其中第 1 項爲 經驗風險,第 2 項是正則化項,λ≥0爲調整兩者之間關係的係數。
正則化的作用就是選擇經驗風險與模型複雜度同時較小的模型。
3、L1 正則化
正則化項可以取不同的形式,比如在迴歸問題中,損失函數就是平方損失。
正則化項爲參數向量的 L1 範數:
L(w)=N1i=1∑N(f(xi;w)−yi)2+λ∥w∥1
4、L2 正則化
正則化項爲參數向量的 L2 範數:
L(w)=N1i=1∑N(f(xi;w)−yi)2+2λ∥w∥2