正則的概率解釋
常用正則項
- L2正則: R(w)=∣∣w∣∣22=∑j=1Dwj2
- L1正則: R(w)=∣∣w∣∣1=∑j=1D∣wj∣
- 這裏以L2正則來進行概率解釋
之前損失函數的概率解釋
- 當假設數據產生模型爲: y=f(x)+ϵ, ϵ∼N(0,σ2)
- ϵ 是一個噪聲,均值是0, 方差是σ2
- 則 y∣x∼N(f(x;w),σ2), 即 p(y∣x)=2πσ1exp(−2σ2(y−f(x;w))2)
- 這就是一個高斯分佈的概率密度函數
- 每個數據點的概率知道了,就可以求似然函數
- 似然函數爲 p(D∣w)=∏i=1N2πσ1exp(−2σ2(yi−f(xi;w))2)
正態分佈先驗
- 增加參數的先驗: wj的值不能太大, wj 取0附近的值概率更高,越遠離0概率越小
- 可用正態分佈: wj∼N(0,τ2)
- 則wj獨立的概率密度函數爲: p(wj)=2πτ1exp(−2τ2wj2)
- 假設wj獨立,得到向量w的概率密度函數: p(w)=∏j=1Dp(wj)
- 根據貝葉斯公式,參數的
後驗分佈
爲: p(w∣D)∝p(w)p(D∣w)
貝葉斯估計
- 似然函數爲:p(D∣w)=∏i=1Np(yi∣xi)=∏i=1N2πσ1exp(−2σ2(yi−f(xi;w))2)
- 參數的先驗爲:p(w)=∏i=1Dp(wj)=∏j=1D2πτ1exp(−2τ2wj2)
- 參數的後驗分佈爲:p(w∣D)∝p(w)p(D∣w)
- 兩邊取log運算,得到:
logp(w∣D)=logp(w)+logp(D∣w)=−2Dlog(2π)−Dlogτ−j=1∑D2τ2wj2
-
最終得到 logp(w∣D)=−2Nlog(2π)−Nlogσ−∑i=1N2σ2(yi−f(xi;w))2
-
貝葉斯最大後驗估計(Maximum a posteriori estimation, MAP)爲
w^=wargmaxlogp(w∣D)=wargmax(logp(w)+logp(D∣w))=wargmin(j=1∑D2τ2wj2+i=1∑N2σ2(yi−f(xi;w))2)=wargmin(τ2σ2j=1∑Dwj2+i=1∑N(yi−f(xi;w))2)
- 上面去掉與𝐰無關的項,去掉負號,最大變成最小, 並且乘以 2σ2
- 等價於嶺迴歸的目標函數 : (L2正則等價於正態分佈先驗) J(w,λ)=∑i=1N(yi−f(xi;w))2+λ∑j=1Dwj2
- 同理可推到L1正則,等價於Laplace分佈先驗 p(wj)=Laplace(0,b)=2b1exp(−b∣wj∣)
- 當b不同的時候,控制了wj在0的概率有多大