EM算法極簡總結——CVMLI Prince讀書隨筆第7章

對數似然目標

$\hat \theta = \argmax _\theta \left [ \sum_{i=1}^I log \left [\int P(x_i, h_i|\theta)dh_i \right] \right ]$
其中 $\{ x_i\}_{i=1}^I$ 是訓練數據， $h$ 是隱變量。

定義下界

上式不好直接求，定義下界函數
$\begin{aligned} \mathcal B [\{q_i(h_i)\}, \theta ] &= \sum_{i=1}^I \int q_i(h_i) \log \left[ \frac{P(x_i, h_i | \theta)}{q_i(h_i)} \right] dh_i \\ & \leq \sum_{i=1}^I log \left [\int P(x_i, h_i|\theta)dh_i \right] \end{aligned}$

優化過程

不斷優化 $\mathcal B$ ，即優化了目標函數的下界。優化方法爲

E步（期望步）：更新概率分佈 $\{ q_i(h_i)\}_{i=1}^I$ 來最大地提高下界。
在第 $t+1$ 步，選擇
$\hat q_i (h_i) = P(h_i| x_i, \theta ^{[t]}) = \frac{P(x_i|h_i, \theta ^{[t]}P(h_i|\theta ^{[t]})}{P(x_i)}$
該式是最大化的正確性可由Jensen不等式保證。注意這種取法實際上達到了對數似然函數。
M步（最大化步）：更新參數 $\theta$ 來提高下界。注意到 $\hat q_i(h_i)$ 與 $\theta$ 無關，所以只需最大化下式
$\begin{aligned} \hat \theta^{[t+1]} &= \argmax _\theta \sum_{i=1}^I \int \hat q_i(h_i) \log \left[ P(x_i, h_i|\theta) \right] dh_i \\ &= \argmax _\theta \sum_{i=1}^I \left [ \mathbb E_{ h \sim \hat q_i(h_i)} \left[ \log (P(x_i| h_i, \theta))\right] + \mathbb E_{ h \sim \hat q_i(h_i)} \left[ \log (P(h_i))\right] \right ] \end{aligned} \tag{1}$

例子解釋

混合高斯模型

在混合高斯模型當中， $E$ 步就是對每個點賦類別概率， $M$ 步就是更新參數 $\{ \mu, \Sigma, \lambda\}$ 。
如果不用EM算法，直接優化 $\sum_{i=1}^I \log [P(x_i|\theta)]$ ，則無法簡單得到閉式解。

學生t分佈模型

概念

高斯分佈對奇異值太敏感，t分佈不會產生如此劇烈影響。

如果
$P(\bm x|h) = \mathcal N (\bm x|\bm\mu, \bm\Sigma/h) \\ P(h) = Gam(h| \nu / 2, \nu/2)$
則 $x$ 的全概率分佈爲學生t分佈：
$\begin{aligned} P(\bm x) & = \int P(\bm x|h)P(h)dh \\ &= \int \mathcal N(\bm x|\bm \mu, \bm\Sigma/h)Gam(h|\nu/2, \nu/2)dh \\ &= St(\bm x| \bm \mu, \bm \Sigma, \nu) \end{aligned}$
其中 $h$ 是標量隱變量， $Gam$ 是Gamma分佈。
可以理解爲是 $h$ 選擇了一族同均值的正態分佈中的一個，然後在該分佈上生成 $\bm x$ .

也可參考之前博客中記錄的，PRML對於學生t分佈的解釋。

EM算法求解

E步：
$\begin{aligned} q_i(h_i) = P(h_i|\bm x_i, \bm \theta^{[t]}) &= \frac{P(\bm x_i|h)P(h_i)}{P(\bm x_i|\theta^{[t]})} \\ &= \frac{\mathcal N(\bm x_i| \mu, \Sigma/h) Gam(h_i|\nu/2, \nu/2) }{P(\bm x_i|\theta^{[t]})} \\ &= Gam(h_i| \frac{\nu + D}{2} , \frac{(\bm x_i - \mu)^T \Sigma^{-1} (\bm x_i - \bm \mu)}{2} + \frac{\nu}{2}) \end{aligned}$
最後一步的證明，注意共軛性。可以參考之前的博客。
M步：對式(1)求導，置0後得到：
$\begin{aligned} \mu^{[t+1]} &= \frac{\sum_{i=1}^I \mathbb E[h_i]\bm x_i}{\sum_{i=1}^I \mathbb E[h_i]} \\ \Sigma^{[t+1]} &= \frac{\sum_{i=1}^I \mathbb E[h_i] (\bm x_i - \mu^{[t+1]})(\bm x_i - \mu^{[t+1]})^T}{\sum_{i=1}^I \mathbb E[h_i]} \end{aligned}$
直觀解釋： $\mathbb E [h_i]$ 可以看作是數據的權重。對於異常值，協方差較大的高斯分佈出現的概率大，也即 $h_i$ 傾向於偏小，所以權重小。這樣也解釋了學生t分佈對於異常值的魯棒性。
自由度 $\nu$ 沒有閉式解，可以在代入更新後 $\bm \mu, \bm \Sigma$ 後，進行一維線性搜索最大化。

參考文獻：
[1] Prince S J D. Computer vision: models, learning, and inference[M]. Cambridge University Press, 2012. 108-116.

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

EM算法極簡總結——CVMLI Prince讀書隨筆第7章

目錄

對數似然目標

定義下界

優化過程

例子解釋

混合高斯模型

學生t分佈模型

概念

EM算法求解

Nginx R31 doc 官方文檔-01-nginx 如何安裝

挑戰程序設計競賽 2.2章習題 POJ - 3617 Best Cow Line 貪心

字節面試：MySQL什麼時候鎖表？如何防止鎖表？

.NET8連接SQL SERVER 2008 R2 報：證書鏈是由不受信任的頒發機構頒發的

golang開發環境搭建(win10)

教學優化算法的簡單介紹

神經網絡反向傳播向量化（CS231n A1 Q4）——已重寫

論文閱讀記錄 1-50篇 20190410-20200316

CS231n Assignment 備忘

HBase常用操作

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結