什麼是共軛性
一個分佈P是另一個分佈Q的共軛,則這兩個分佈相乘,分佈形式與P相同(同族)。
共軛先驗與貝葉斯方法
對於已有數據集x,記似然估計爲P1(x∣λ),其中λ是參數,先驗分佈爲P2(λ;θ),其中θ是參數先驗分佈的已知有關參數。
則參數的後驗分佈可以寫爲
P(λ∣x;θ)=P(x)P1(x∣λ)P2(λ;θ)
如果P2是P1的共軛分佈,則
P1(x∣λ)P2(λ;θ)=κ(x,θ)P2(λ;θ~)
其中κ(x,θ)是一個λ無關的常數,P2(λ;θ~)與P2(λ;θ)有同樣的形式。
由於概率對λ積分爲1,所以κ(x,θ)=P(x),即P(λ∣x;θ)=P2(λ;θ~)
共軛分佈的優勢一
- 共軛先驗的好處在於保證了後驗分佈是一個已知形式的閉式解。
- 只要能把P2的參數辨識出來,係數就可以不用在乎。例如先驗分佈爲高斯分佈,且是數據分佈的共軛分佈。那麼只需把後驗分佈的均值和方差通過指數項係數辨識出來。不用在乎常數項。
貝葉斯密度預測
在給定數據集x後,x∗處的密度概率爲
P(x∗∣x)=∫P1(x∗∣λ)P(λ∣x;θ)dλ=∫P1(x∗∣λ)P2(λ;θ~)dλ=∫κ(x∗,θ~)P2(λ;θ˘)dλ=κ(x∗,θ~)
共軛分佈的優勢二
貝葉斯的密度預測結果表達式居然是κ(x∗,θ~),是一個形式簡單的閉式解!
總結
對於共軛先驗,只要把
P1(x∣λ)P2(λ;θ)=κ(x,θ)P2(λ;θ~)
當中的κ(x,θ)和θ~(x,θ)的表達式搞清楚,就能直接得到貝葉斯參數估計和密度估計的結果。
常見的似然與共軛
似然函數(數據分佈) |
共軛先驗 |
Bernoulli分佈 |
Beta分佈 |
多類分佈 |
Dirichlet分佈 |
高斯分佈 |
高斯分佈(方差已知) |
一維高斯分佈 |
逆Gamma分佈(均值已知) |
一維高斯分佈 |
正態逆Gamma分佈 |
高維高斯分佈 |
逆Wishart分佈(均值已知) |
高維高斯分佈 |
正態逆Wishart分佈 |
參考文獻:
[1] Prince S J D. Computer vision: models, learning, and inference[M]. Cambridge University Press, 2012. 50-64.