AI筆記: 正則的概率解釋

原創

Johnny丶me

2020-04-21 18:19

正則的概率解釋

常用正則項

L2正則: $R(w) = ||w||_2^2 = \sum_{j=1}^D w_j^2$
L1正則: $R(w) = ||w||_1 = \sum_{j=1}^D |w_j|$
這裏以L2正則來進行概率解釋

之前損失函數的概率解釋

當假設數據產生模型爲: $y = f(x) + \epsilon, \ \ \ \epsilon \sim N(0, \sigma^2)$
- $\epsilon$ 是一個噪聲，均值是0，方差是 $\sigma^2$
則 $y | x \sim N(f(x;w), \sigma^2)$ , 即 $p(y|x) = \frac{1}{\sqrt{2 \pi} \sigma} exp(- \frac{(y-f(x;w))^2}{2 \sigma^2})$
- 這就是一個高斯分佈的概率密度函數
- 每個數據點的概率知道了，就可以求似然函數
似然函數爲 $p(D|w) = \prod_{i=1}^N \frac{1}{\sqrt{2\pi} \sigma} exp(- \frac{(y_i - f(x_i; w))^2}{2 \sigma^2})$
- D是訓練數據，有N個樣本

正態分佈先驗

增加參數的先驗: $w_j$ 的值不能太大, $w_j$ 取0附近的值概率更高，越遠離0概率越小

可用正態分佈: $w_j \sim N(0, \tau^2)$
則 $w_j$ 獨立的概率密度函數爲: $p(w_j) = \frac{1}{\sqrt{2\pi} \tau} exp(- \frac{w_j^2}{2\tau^2})$
假設 $w_j$ 獨立，得到向量w的概率密度函數: $p(w) = \prod_{j=1}^D p(w_j)$
根據貝葉斯公式，參數的後驗分佈爲: $p(w|D) \varpropto p(w) p(D|w)$

貝葉斯估計

似然函數爲： $p(D|w) = \prod_{i=1}^N p(y_i| x_i) = \prod_{i=1}^N \frac{1}{\sqrt{2\pi}\sigma} exp(-\frac{(y_i - f(x_i;w))^2}{2 \sigma^2})$
參數的先驗爲： $p(w) = \prod_{i=1}^D p(w_j) = \prod_{j=1}^D \frac{1}{\sqrt{2\pi}\tau} exp(-\frac{w_j^2}{2 \tau^2})$
參數的後驗分佈爲： $p(w|D) \varpropto p(w) p(D|w)$
兩邊取log運算，得到：

$log p(w|D) = log p(w) + log p(D|w) \\ = - \frac{D}{2} log(2 \pi) - D log \tau - \sum_{j=1}^D \frac{w_j^2}{2 \tau^2}$

最終得到 $log p(w|D) = - \frac{N}{2} log(2 \pi) - Nlog \sigma - \sum_{i=1}^N \frac{(y_i - f(x_i; w))^2}{2 \sigma^2}$
貝葉斯最大後驗估計(Maximum a posteriori estimation, MAP)爲

$\hat{w} = \underset{w}{argmax} log p(w | D) \\ = \underset{w}{argmax} (logp(w) + logp(D|w)) \\ = \underset{w}{argmin} (\sum_{j=1}^D \frac{w_j^2}{2 \tau^2} + \sum_{i=1}^N \frac{(y_i - f(x_i;w))^2}{2 \sigma^2}) \\ = \underset{w}{argmin} (\frac{\sigma^2}{\tau^2} \sum_{j=1}^D w_j^2 + \sum_{i=1}^N (y_i - f(x_i; w))^2) \\$

上面去掉與𝐰無關的項，去掉負號，最大變成最小，並且乘以 $2 \sigma^2$
等價於嶺迴歸的目標函數 : (L2正則等價於正態分佈先驗) $J(w, \lambda) = \sum_{i=1}^N (y_i - f(x_i; w))^2 + \lambda \sum_{j=1}^D w_j^2$
同理可推到L1正則，等價於Laplace分佈先驗 $p(w_j) = Laplace(0, b) = \frac{1}{2b}exp(- \frac{|w_j|}{b})$

當b不同的時候，控制了 $w_j$ 在0的概率有多大

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

AI筆記: 正則的概率解釋

正則的概率解釋

AI筆記: 數學基礎之定積分的性質

AI筆記: 數學基礎之方向導數的計算和梯度

AI筆記: 數學基礎之定積分的引例與定義

AI筆記: 數學基礎之導數的應用：泰勒Taylor公式

AI筆記: 數學基礎之泰勒Taylor公式的變形和應用

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結