共軛先驗的概念和優勢——CVMLI Prince讀書隨筆第4章

什麼是共軛性

一個分佈PP是另一個分佈QQ的共軛,則這兩個分佈相乘,分佈形式與PP相同(同族)。

共軛先驗與貝葉斯方法

對於已有數據集x\mathbf x,記似然估計爲P1(xλ)P_1(\bf x|\lambda),其中λ\lambda是參數,先驗分佈爲P2(λ;θ)P_2(\lambda;\theta),其中θ\theta是參數先驗分佈的已知有關參數。

則參數的後驗分佈可以寫爲
P(λx;θ)=P1(xλ)P2(λ;θ)P(x) P(\lambda| \mathbf{x}; \theta) = \frac{P_1(\mathbf x|\lambda)P_2(\lambda;\theta)}{P(\bf x)}

如果P2P_2P1P_1的共軛分佈,則
P1(xλ)P2(λ;θ)=κ(x,θ)P2(λ;θ~) P_1(\mathbf x|\lambda)P_2(\lambda;\theta) = \kappa (\mathbf x, \theta) P_2(\lambda; \tilde \theta)

其中κ(x,θ)\kappa(\mathbf x, \theta)是一個λ\lambda無關的常數,P2(λ;θ~)P_2(\lambda; \tilde \theta)P2(λ;θ)P_2(\lambda; \theta)有同樣的形式。
由於概率對λ\lambda積分爲1,所以κ(x,θ)=P(x)\kappa(\mathbf x, \theta) =P(\mathbf x),即P(λx;θ)=P2(λ;θ~)P(\lambda| \mathbf x; \theta)=P_2(\lambda; \tilde \theta)

共軛分佈的優勢一

  • 共軛先驗的好處在於保證了後驗分佈是一個已知形式的閉式解。
  • 只要能把P2P_2的參數辨識出來,係數就可以不用在乎。例如先驗分佈爲高斯分佈,且是數據分佈的共軛分佈。那麼只需把後驗分佈的均值和方差通過指數項係數辨識出來。不用在乎常數項。

貝葉斯密度預測

在給定數據集x\mathbf x後,xx^*處的密度概率爲
P(xx)=P1(xλ)P(λx;θ)dλ=P1(xλ)P2(λ;θ~)dλ=κ(x,θ~)P2(λ;θ˘)dλ=κ(x,θ~) \begin{aligned} P(x^*| \mathbf x) &= \int P_1(x^* | \lambda)P(\lambda|\mathbf x; \theta)d\lambda \\ &=\int P_1(x^*|\lambda)P_2(\lambda; \tilde \theta)d\lambda \\ &= \int \kappa(x^*, \tilde \theta)P_2(\lambda; \breve \theta) d\lambda \\ &= \kappa(x^*, \tilde \theta) \end{aligned}

共軛分佈的優勢二

貝葉斯的密度預測結果表達式居然是κ(x,θ~)\kappa(x^*, \tilde \theta),是一個形式簡單的閉式解!

總結

對於共軛先驗,只要把
P1(xλ)P2(λ;θ)=κ(x,θ)P2(λ;θ~) P_1(\mathbf x|\lambda)P_2(\lambda;\theta) = \kappa (\mathbf x, \theta) P_2(\lambda; \tilde \theta)
當中的κ(x,θ)\kappa (\mathbf x, \theta)θ~(x,θ)\tilde \theta (\mathbf x, \theta)的表達式搞清楚,就能直接得到貝葉斯參數估計和密度估計的結果。

常見的似然與共軛

似然函數(數據分佈) 共軛先驗
Bernoulli分佈 Beta分佈
多類分佈 Dirichlet分佈
高斯分佈 高斯分佈(方差已知)
一維高斯分佈 逆Gamma分佈(均值已知)
一維高斯分佈 正態逆Gamma分佈
高維高斯分佈 逆Wishart分佈(均值已知)
高維高斯分佈 正態逆Wishart分佈

參考文獻:
[1] Prince S J D. Computer vision: models, learning, and inference[M]. Cambridge University Press, 2012. 50-64.

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章