轉自:https://zhuanlan.zhihu.com/p/103854460
“共軛分佈”是什麼?
共軛分佈是概率統計中一個常見的名詞,要真正瞭解它和它的用途,我們需要從貝葉斯學派說起。
貝葉斯學派
貝葉斯學派試圖描述觀察者在已有的先驗知識狀態下,在觀測到新事件發生後得到後驗知識狀態。與之對立的是頻率學派,頻率學派強調從樣本數據中直接得到出現的比例或者頻率。頻率學派需要大量樣本數據作爲支持,但是實際應用上,比如在藥物等真實場景上是沒有這麼多數據的,因此在真實環境下貝葉斯理論使用更爲廣泛。
貝葉斯定理
- 似然函數(Likelihood): 關於統計模型中的參數 的函數,表示模型參數中的似然性
- 先驗分佈(Prior):在未看到觀測數據的時候參數 的不確定性的概率分佈
- 後驗分佈(Posterior):考慮和給出相關證據或數據後所得到的條件概率分佈
- 分母( ):可以理解爲是正則化,使得最終概率相加爲1,符合基本約束的作用
在貝葉斯定理中,參數先有一個先驗認知(先驗分佈),然後通過觀察新數據,得到後驗認知(後驗分佈)。
共軛分佈的定義
在貝葉斯統計中,如果後驗分佈與先驗分佈屬於同類(分佈形式相同),則先驗分佈與後驗分佈被稱爲共軛分佈,而先驗分佈被稱爲似然函數的共軛先驗。
如果我們需要驗證共軛分佈,因爲 後驗分佈 似然函數*先驗分佈,因此如果當我們將似然函數和先驗分佈式子對應代入,正則化後所得後驗分佈與先驗分佈形式相同,那就說明他們是共軛分佈。
舉個例子,我們認爲有一個二項分佈的似然函數,先驗分佈服從Beta分佈。基於以上條件,我們求後驗
似然:
先驗:
後驗:
這裏計算的中間過程中用了兩次正比簡化計算過程,第一次是將正則化的分母去掉了,因爲分母對這裏的參數π是沒有影響的。第二次是最後一步中去掉所有不包含π的項, 是樣本數據中確定的, 是先驗分佈中已確定的參數,也是對π沒有影響的。
因此後驗也是符合Beta分佈,只是參數有所不同: 。由此我們知道Beta分佈和二項分佈是共軛的。
共軛分佈的意義
從上面例子推導結果中,我們其實已經能看到共軛分佈的意義了。
因爲後驗分佈和先驗分佈形式相近,只是參數有所不同,這意味着當我們獲得新的觀察數據時,我們就能直接通過參數更新,獲得新的後驗分佈,此後驗分佈將會在下次新數據到來的時候成爲新的先驗分佈。如此一來,我們更新後驗分佈就不需要通過大量的計算,十分方便。
我們繼續結合上面二項分佈和Beta分佈的共軛證明,以拋硬幣作爲例子說明共軛的意義。
此處先簡單介紹一下Beta分佈。
Beta分佈
每個概率模型都有其現實意義,Beta分佈是指一組定義在(0, 1)區間的連續概率分佈,有兩個參數 ,
模型會在 處取最大值,模型均值
Beta分佈常用於表示概率的概率分佈,常用於表示成功或者失敗的概率的概率分佈。
以拋硬幣作爲例子
假設我們有一個硬幣,似然函數採用二項分佈,先驗認爲拋一次硬幣正面的平均概率是0.5,且 P(正面)= ,其中 的取值服從 分佈,即 。此處只要使得模型期望等特徵與設想相同,取值還可以是其他的數字,比如 。模型參數的選擇將會影響後面觀察數據對後驗的貢獻,下面舉例進行說明。
假設後面我們扔了十次硬幣,結果是三正七反。回想上面我們對二項分佈和Beta分佈的共軛證明中得到後驗分佈將服從的Beta分佈形式:
此時我們的 ,由此我們可以得到後驗服從 平均概率約等於 0.482。但是如果我們認爲先驗分佈服從 分佈,那後驗將會是 ,平均概率約等於0.499。在兩個模型下,後驗分佈的期望概率都比之前的0.5要小,十次硬幣的數據樣本對後面一個模型的後驗分佈的影響較小。由此可見,先驗分佈的參數選擇有時會影響到樣本數據對後驗的貢獻等,大家應根據自己實際情況進行先驗分佈模型的具體參數的選擇。
如果沒有共軛的話會怎麼樣?
上面的貝葉斯公式
如果沒有共軛,在需要計算多批新樣本數據下的後驗分佈時,每次計算都需要整體重新計算。反之如果存在共軛分佈,共軛可以使得我們的後驗分佈,之後直接成爲“先驗”,不需要重新整體計算,只需要考慮新樣本數據。因此共軛的存在將會給我們對後驗的更新帶來極大的便利。
共軛還可以保證後驗分佈符合某概率模型分佈,而常見的概率模型分佈如Beta、Gamma、正態分佈等會有一些已有的數學性質可以直接使用,比如期望、極值點等。
指數分佈族
這裏再簡單介紹下指數分佈族
維基百科介紹:
由於指數分佈族具有很多很好的性質,其中有一條便是指數分佈族都有共軛
在機器學習中其實存在着很多的指數分佈族,共軛特性將會在計算更新上帶來很大的便利。