AI筆記: 正則的概率解釋

正則的概率解釋

常用正則項

  • L2正則: R(w)=w22=j=1Dwj2R(w) = ||w||_2^2 = \sum_{j=1}^D w_j^2
  • L1正則: R(w)=w1=j=1DwjR(w) = ||w||_1 = \sum_{j=1}^D |w_j|
  • 這裏以L2正則來進行概率解釋

之前損失函數的概率解釋

  • 當假設數據產生模型爲: y=f(x)+ϵ,   ϵN(0,σ2)y = f(x) + \epsilon, \ \ \ \epsilon \sim N(0, \sigma^2)
    • ϵ\epsilon 是一個噪聲,均值是0, 方差是σ2\sigma^2
  • yxN(f(x;w),σ2)y | x \sim N(f(x;w), \sigma^2), 即 p(yx)=12πσexp((yf(x;w))22σ2)p(y|x) = \frac{1}{\sqrt{2 \pi} \sigma} exp(- \frac{(y-f(x;w))^2}{2 \sigma^2})
    • 這就是一個高斯分佈的概率密度函數
    • 每個數據點的概率知道了,就可以求似然函數
  • 似然函數爲 p(Dw)=i=1N12πσexp((yif(xi;w))22σ2)p(D|w) = \prod_{i=1}^N \frac{1}{\sqrt{2\pi} \sigma} exp(- \frac{(y_i - f(x_i; w))^2}{2 \sigma^2})
    • D是訓練數據,有N個樣本

正態分佈先驗

  • 增加參數的先驗: wjw_j的值不能太大, wjw_j 取0附近的值概率更高,越遠離0概率越小
  • 可用正態分佈: wjN(0,τ2)w_j \sim N(0, \tau^2)
  • wjw_j獨立的概率密度函數爲: p(wj)=12πτexp(wj22τ2)p(w_j) = \frac{1}{\sqrt{2\pi} \tau} exp(- \frac{w_j^2}{2\tau^2})
  • 假設wjw_j獨立,得到向量w的概率密度函數: p(w)=j=1Dp(wj)p(w) = \prod_{j=1}^D p(w_j)
  • 根據貝葉斯公式,參數的後驗分佈爲: p(wD)p(w)p(Dw)p(w|D) \varpropto p(w) p(D|w)

貝葉斯估計

  • 似然函數爲:p(Dw)=i=1Np(yixi)=i=1N12πσexp((yif(xi;w))22σ2)p(D|w) = \prod_{i=1}^N p(y_i| x_i) = \prod_{i=1}^N \frac{1}{\sqrt{2\pi}\sigma} exp(-\frac{(y_i - f(x_i;w))^2}{2 \sigma^2})
  • 參數的先驗爲:p(w)=i=1Dp(wj)=j=1D12πτexp(wj22τ2)p(w) = \prod_{i=1}^D p(w_j) = \prod_{j=1}^D \frac{1}{\sqrt{2\pi}\tau} exp(-\frac{w_j^2}{2 \tau^2})
  • 參數的後驗分佈爲:p(wD)p(w)p(Dw)p(w|D) \varpropto p(w) p(D|w)
  • 兩邊取log運算,得到:

logp(wD)=logp(w)+logp(Dw)=D2log(2π)Dlogτj=1Dwj22τ2 log p(w|D) = log p(w) + log p(D|w) \\ = - \frac{D}{2} log(2 \pi) - D log \tau - \sum_{j=1}^D \frac{w_j^2}{2 \tau^2}

  • 最終得到 logp(wD)=N2log(2π)Nlogσi=1N(yif(xi;w))22σ2log p(w|D) = - \frac{N}{2} log(2 \pi) - Nlog \sigma - \sum_{i=1}^N \frac{(y_i - f(x_i; w))^2}{2 \sigma^2}

  • 貝葉斯最大後驗估計(Maximum a posteriori estimation, MAP)爲

w^=argmaxwlogp(wD)=argmaxw(logp(w)+logp(Dw))=argminw(j=1Dwj22τ2+i=1N(yif(xi;w))22σ2)=argminw(σ2τ2j=1Dwj2+i=1N(yif(xi;w))2) \hat{w} = \underset{w}{argmax} log p(w | D) \\ = \underset{w}{argmax} (logp(w) + logp(D|w)) \\ = \underset{w}{argmin} (\sum_{j=1}^D \frac{w_j^2}{2 \tau^2} + \sum_{i=1}^N \frac{(y_i - f(x_i;w))^2}{2 \sigma^2}) \\ = \underset{w}{argmin} (\frac{\sigma^2}{\tau^2} \sum_{j=1}^D w_j^2 + \sum_{i=1}^N (y_i - f(x_i; w))^2) \\

  • 上面去掉與𝐰無關的項,去掉負號,最大變成最小, 並且乘以 2σ22 \sigma^2
  • 等價於嶺迴歸的目標函數 : (L2正則等價於正態分佈先驗) J(w,λ)=i=1N(yif(xi;w))2+λj=1Dwj2J(w, \lambda) = \sum_{i=1}^N (y_i - f(x_i; w))^2 + \lambda \sum_{j=1}^D w_j^2
  • 同理可推到L1正則,等價於Laplace分佈先驗 p(wj)=Laplace(0,b)=12bexp(wjb)p(w_j) = Laplace(0, b) = \frac{1}{2b}exp(- \frac{|w_j|}{b})
  • 當b不同的時候,控制了wjw_j在0的概率有多大
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章