貝葉斯估計

貝葉斯與頻率派思想

頻率派思想

    長久以來,人們對一件事情發生或不發生,只有固定的0和1,即要麼發生,要麼不發生,從來不會去考慮某件事情發生的概率有多大,不發生的概率又是多大。而且事情發生或不發生的概率雖然未知,但最起碼是一個確定的值。

比如如果問那時的人們一個問題:“有一個袋子,裏面裝着若干個白球和黑球,請問從袋子中取得白球的概率是多少?”他們會立馬告訴你,取出白球的概率就是1/2,要麼取到白球,要麼取不到白球,即θ只能有一個值,而且不論你取了多少次,取得白球的概率θ始終都是1/2,即不隨觀察結果X 的變化而變化。

這種頻率派的觀點長期統治着人們的觀念,直到後來一個名叫Thomas Bayes的人物出現。

頻率派把需要推斷的參數θ看做是固定的未知常數,即概率雖然是未知的,但最起碼是確定的一個值,同時,樣本X 是隨機的,所以頻率派重點研究樣本空間,大部分的概率計算都是針對樣本X 的分佈;

最大似然估計(MLE)和最大後驗估計(MAP)都是把待估計的參數看作一個擁有固定值的變量,只是取值未知。通常估計的方法都是找使得相應的函數最大時的參數;由於MAP相比於MLE會考慮先驗分佈的影響,所以MAP也會有超參數,它的超參數代表的是一種信念(belief),會影響推斷(inference)的結果。比如說拋硬幣,如果我先假設是公平的硬幣,這也是一種歸納偏置(bias),那麼最終推斷的結果會受我們預先假設的影響。

貝葉斯思想

    回到上面的例子:“有一個袋子,裏面裝着若干個白球和黑球,請問從袋子中取得白球的概率θ是多少?”貝葉斯認爲取得白球的概率是個不確定的值,因爲其中含有機遇的成分。比如,一個朋友創業,你明明知道創業的結果就兩種,即要麼成功要麼失敗,但你依然會忍不住去估計他創業成功的機率有多大?你如果對他爲人比較瞭解,而且有方法、思路清晰、有毅力、且能團結周圍的人,你會不由自主的估計他創業成功的機率可能在80%以上。這種不同於最開始的“非黑即白、非0即1”的思考方式,便是貝葉斯式的思考方式。

    貝葉斯派既然把看做是一個隨機變量,所以要計算的分佈,便得事先知道的無條件分佈,即在有樣本之前(或觀察到X之前),有着怎樣的分佈呢?

比如往檯球桌上扔一個球,這個球落會落在何處呢?如果是不偏不倚的把球拋出去,那麼此球落在檯球桌上的任一位置都有着相同的機會,即球落在檯球桌上某一位置的概率服從均勻分佈。這種在實驗之前定下的屬於基本前提性質的分佈稱爲先驗分佈,或的無條件分佈。

貝葉斯派認爲待估計的參數是隨機變量,服從一定的分佈,而樣本X 是固定的,由於樣本是固定的,所以他們重點研究的是參數的分佈。

貝葉斯及貝葉斯派思考問題的固定模式

先驗分佈 + 樣本信息  後驗分佈

上述思考模式意味着,新觀察到的樣本信息將修正人們以前對事物的認知。換言之,在得到新的樣本信息之前,人們對的認知是先驗分佈,在得到新的樣本信息後,人們對的認知爲

其中,先驗信息一般來源於經驗跟歷史資料。比如林丹跟某選手對決,解說一般會根據林丹歷次比賽的成績對此次比賽的勝負做個大致的判斷。再比如,某工廠每天都要對產品進行質檢,以評估產品的不合格率θ,經過一段時間後便會積累大量的歷史資料,這些歷史資料便是先驗知識,有了這些先驗知識,便在決定對一個產品是否需要每天質檢時便有了依據,如果以往的歷史資料顯示,某產品的不合格率只有0.01%,便可視爲信得過產品或免檢產品,只每月抽檢一兩次,從而省去大量的人力物力。

而後驗分佈一般也認爲是在給定樣本的情況下的條件分佈,而使達到最大的值稱爲最大後驗估計。

皮皮blog



貝葉斯定理

條件概率

條件概率(又稱後驗概率)就是事件A在另外一個事件B已經發生條件下的發生概率。條件概率表示爲P(A|B),讀作“在B條件下A的概率”。

聯合概率表示兩個事件共同發生的概率。A與B的聯合概率表示爲或者

邊緣概率(又稱先驗概率)是某個事件發生的概率。邊緣概率是這樣得到的:在聯合概率中,把最終結果中那些不需要的事件通過合併成它們的全概率,而消去它們(對離散隨機變量用求和得全概率,對連續隨機變量用積分得全概率),這稱爲邊緣化(marginalization),比如A的邊緣概率表示爲P(A),B的邊緣概率表示爲P(B)。

貝葉斯定理

貝葉斯定理是關於隨機事件A和B的條件概率和邊緣概率的一則定理。

P(A|B) = \frac{P(B | A)\, P(A)}{P(B)}

在參數估計中可以寫成下面這樣:


這個公式也稱爲逆概率公式,可以將後驗概率轉化爲基於似然函數和先驗概率的計算表達式,即

在貝葉斯定理中,每個名詞都有約定俗成的名稱:

P(A)是A的先驗概率或邊緣概率。之所以稱爲"先驗"是因爲它不考慮任何B方面的因素。
P(A|B)是已知B發生後A的條件概率(在B發生的情況下A發生的可能性),也由於得自B的取值而被稱作A的後驗概率
P(B|A)是已知A發生後B的條件概率,也由於得自A的取值而被稱作B的後驗概率。
P(B)是B的先驗概率或邊緣概率,也作標準化常量(normalized constant).

按這些術語,Bayes定理可表述爲:

後驗概率 = (相似度*先驗概率)/標準化常量,也就是說,後驗概率與先驗概率和相似度的乘積成正比。

另外,比例P(B|A)/P(B)也有時被稱作標準相似度(standardised likelihood),Bayes定理可表述爲:

後驗概率 = 標準相似度*先驗概率

貝葉斯估計的例子

假設中國的大學只有兩種:理工科和文科,這兩種學校數量的比例是1:1,其中,理工科男女比例7:1,文科男女比例1:7。某天你被外星人隨機扔到一個校園,問你該學校可能的男女比例是多少?然後,你實際到該校園裏逛了一圈,看到的5個人全是男的,這時候再次問你這個校園的男女比例是多少?

  1. 因爲剛開始時,有先驗知識,所以該學校的男女比例要麼是7:1,要麼是1:7,即P(比例爲7:1) = 1/2,P(比例爲1:7) = 1/2。
  2. 然後看到5個男生後重新估計男女比例,其實就是求P(比例7:1|5個男生)= ?,P(比例1:7|5個男生) = ?
  3. 用貝葉斯公式,可得:P(比例7:1|5個男生) = P(比例7:1)*P(5個男生|比例7:1) / P(5個男生),P(5個男生)是5個男生的先驗概率,與學校無關,所以是個常數;類似的,P(比例1:7|5個男生) = P((比例1:7)*P(5個男生|比例1:7)/P(5個男生)。
  4. 最後將上述兩個等式比一下,可得:P(比例7:1|5個男生)/P(比例1:7|5個男生) = {P((比例7:1)*P(5個男生|比例7:1)} / { P(比例1:7)*P(5個男生|比例1:7)}。

頻率派與貝葉斯派的區別

    頻率派把需要推斷的參數θ看做是固定的未知常數,即概率雖然是未知的,但最起碼是確定的一個值,同時,樣本X 是隨機的,所以頻率派重點研究樣本空間,大部分的概率計算都是針對樣本X 的分佈;
    貝葉斯派的觀點則截然相反,他們認爲參數是隨機變量,而樣本X 是固定的,由於樣本是固定的,所以他們重點研究的是參數的分佈。

兩者的本質區別

根據貝葉斯法則:

               posterior=likelihoodpriorevidence

               p(ϑ|X)=p(X|ϑ)p(ϑ)p(X)

在MLE和MAP中,由於是要求函數最大值時的參數,所以都不會考慮evidence。但在貝葉斯估計中,不再直接取極值,所以還會考慮evidence,下面的這個積分也是通常貝葉斯估計中最難處理的部分:

               p(X)=ϑΘp(X|ϑ)p(ϑ)dϑ

evidence相當於對所有的似然概率積分或求和(離散時),所以也稱作邊界似然

估計未知參數所採用的思想不同的例子

我去一朋友家:

    按照頻率派的思想,我估計他在家的概率是1/2,不在家的概率也是1/2,是個定值。

    按照貝葉斯派的思想,他在家不在家的概率不再認爲是個定值1/2,而是隨機變量。比如按照我們的經驗(比如當天週末),猜測他在家的概率是0.6,但這個0.6不是說就是完全確定的,也有可能是0.7。如此,貝葉斯派沒法確切給出參數的確定值(0.3,0.4,0.6,0.7,0.8,0.9都有可能),但至少明白哪些取值(0.6,0.7,0.8,0.9)更有可能,哪些取值(0.3,0.4) 不太可能。進一步,貝葉斯估計中,參數的多個估計值服從一定的先驗分佈,而後根據實踐獲得的數據(例如週末不斷跑他家),不斷修正之前的參數估計,從先驗分佈慢慢過渡到後驗分佈。

各種參數估計方法可以參考Heinrich論文的第二部分。

[[各種參數估計方法的論述:Gregor Heinrich.Parameter estimation for text analysis*]

數理統計學簡史》

《統計決策論及貝葉斯分析 James O.Berger著》

[概率圖模型  原理與技術[(美)科勒,(以)弗裏德曼著]*

[機器學習之用Python從零實現貝葉斯分類器]]

皮皮blog


貝葉斯估計

    貝葉斯估計是在MAP上做進一步拓展,此時不直接估計參數的值,而是允許參數服從一定概率分佈。極大似然估計和極大後驗概率估計,都求出了參數theta的值,而貝葉斯推斷則不是,貝葉斯推斷擴展了極大後驗概率估計MAP(一個是等於,一個是約等於)方法,它根據參數的先驗分佈P(theta)和一系列觀察X,求出參數theta的後驗分佈P(theta|X),然後求出theta的期望值,作爲其最終值。另外還定義了參數的一個方差量,來評估參數估計的準確程度或者置信度。

貝葉斯公式


現在不是要求後驗概率最大,這樣就需要求,即觀察到的evidence的概率,由全概率公式展開可得


當新的數據被觀察到時,後驗概率可以自動隨之調整。但是通常這個全概率的求法是貝葉斯估計比較有技巧性的地方。

用貝葉斯估計來做預測

如果我們想求一個新值的概率,可以由下面公式來計算。


此時第二項因子在上的積分不再等於1,這就是和MLE及MAP很大的不同點。

扔硬幣的伯努利實驗示例

跟上面極大後驗概率例子一樣,N次伯努利實驗,參數p(即正面的概率)的先驗分佈是參數爲(5,5)的beta分佈,然後接下來,我們根據參數p的先驗分佈和N次伯努利實驗結果來求p的後驗分佈。我們假設先驗分佈爲Beta分佈,但是構造貝葉斯估計時,不是要求用後驗最大時的參數來近似作爲參數值,而是求滿足Beta分佈的參數p的期望,也就是直接寫出參數的分佈再來求分佈的期望,有

Note:

1 C是所有實驗結果的集合Ci=1或者0。


3 這裏用到了公式


4 推導也可參考[主題模型TopicModel:LDA中的數學模型:Beta-Binomial 共軛部分]

    根據結果可以知道,根據貝葉斯估計,參數p服從一個新的Beta分佈。回憶一下,我們爲p選取的先驗分佈是Beta分佈,然後以p爲參數的二項分佈用貝葉斯估計得到的後驗概率仍然服從Beta分佈,由此我們說二項分佈和Beta分佈是共軛分佈。當T爲二維的情形可以對Beta分佈來應用;T爲多維的情形可以對狄利克雷分佈應用。

根據Beta分佈的期望和方差計算公式,我們有



可以看出此時估計的p的期望和MLE ,MAP中得到的估計值都不同,此時如果仍然是做20次實驗,12次正面,8次反面,那麼我們根據貝葉斯估計得到的p滿足參數爲12+5和8+5的Beta分佈,其均值和方差分別是17/30=0.567, 17*13/(31*30^2)=0.0079。可以看到此時求出的p的期望比MLE和MAP得到的估計值都小,更加接近0.5。

皮皮blog


貝葉斯參數估計

貝葉斯方法中,把參數視爲影響所有訓練實例概率的未觀測變量。於是學習相當於根據觀測來計算新樣本的概率,這種學習可以通過計算參數上的後驗概率(分母也要計算出來?)來執行,且使用它進行預測。

而MAP後驗估計是根據最大的p(theta | X)來計算新樣本的概率?

圖釘和硬幣示例

 

聯合概率模型

將貝葉斯學習視爲包含所有實例和參數中所有變量的meta-網中的推理問題。計算未來事件的概率相當於給定前M個觀測實例時,關於第M+1個實例的後驗概率執行查詢。

用一個概率分佈來表示參數theta的先驗知識,在theta和觀測的數據X上建立一個聯合分佈。(也就是將theta也當成一個隨機變量,而不是一個待估參數)

theta固定時,不同拋擲間的條件獨立;theta未知時,每次拋擲都可以傳遞一些有關參數theta的信息,不同拋擲間的邊緣獨立性不成立。這種直觀和貝葉斯網的獨立性是一致的!


Note:X的每次取值代表每次拋擲的不同結果。

參數和數據的聯合分佈


Note: 公式與MLE唯一的區別只在於多了一個P(theta)。也要注意其和貝葉斯網的MLE估計的區別[]。

聯合分佈、後驗分佈和似然、先驗的聯繫


預測:貝葉斯估計子預測和拉普拉斯校正

給定前M次拋擲的結果來推理第M+1次拋擲的值。

Note: 公式推導中P(x[M+1] = x1 | theta) 就是theta; P(x...)僅是一個歸一化因子,不用直接計算,分別計算X[]=x1和x0再相加就可以了。

貝葉斯估計子預測公式推導:



先驗

非均勻的先驗分佈

選擇beta分佈作爲伯努利分佈的先驗


[概率論:常見概率分佈]

共軛性質


先驗強度與樣本量:先驗分佈對參數估計的影響


先驗分佈與後驗分佈

參數和數據的聯合分佈

先驗和後驗的形式

對某些概率模型,似然函數可以用充分統計量緊湊表示。而這裏,後驗分佈同樣也可以緊湊表示,而這就取決於先驗的形式。如先驗分佈爲beta分佈,那麼二項式分佈的數據的後驗分佈也是緊湊的beta分佈;先驗分佈爲dirichlet分佈,那麼多項式分佈的數據的後驗分佈也是緊湊的dirichlet分佈。


共軛


後驗概率分佈的作用:確定模型屬性(如偏置)和預測新數據

Dirichlet先驗

先驗強度alpha和先驗均值theta‘

直觀上,當我們有一個很大的訓練集時,先驗的作用是可以忽略不計的。

先驗強度和均值對估計的影響

可以看到,這種先驗起到了平滑的效果,導致了更加魯棒的估計

Note: 另先驗可以避免overfitting,這是因爲先驗帶來的僞計數減小了訓練數據的偏倚

先驗不能使用極值估計

實際爲0的概率的估計是很危險的,因爲無論多大量的證據都無法改變它們。


[《Probabilistic Graphical Models:Principles and Techniques》(簡稱PGM)]

from: http://blog.csdn.net/pipisorry/article/details/51471222

ref:  [天真的貝葉斯,神奇的貝葉斯方法]


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章