概率圖模型（PGM）學習筆記（四）-貝葉斯網絡-伯努利貝葉斯-多項式貝葉斯

之前忘記強調了一個重要區別：條件概率鏈式法則和貝葉斯網絡鏈式法則的區別

條件概率鏈式法則

貝葉斯網絡鏈式法則，如圖1

圖1

乍一看很容易覺得貝葉斯網絡鏈式法則不就是大家以前學的鏈式法則麼，其實不然，後面詳述。

上一講談到了概率分佈的因式分解

可以看到條件概率的獨立性可以直接從概率分佈表達式看出來。

我們已經用概率圖模型把概率關係用圖形化G表示了，獨立性能從圖上直接看出來嗎？

當然，上一講已經詳細解釋過了概率圖中概率的流動關係.

當G已知時，S和D之間的概率才能相互影響。下面定義一個依賴隔離的概念。

依賴隔離（D-separation）

在Z已知的情況下，X與Y之間沒有通路。則稱之爲X與Y依賴隔離。記作

介紹個定理：“圖不通就獨立定理”（當然是爲了好理解）

這個定理是說，若概率圖滿足依賴隔離

則有X與Y條件獨立

來證明一下，現在用的是貝葉斯網絡鏈式法則，如圖2

圖2

利用的還是之前那個把求和拆分的Trick，這裏要注意一開始求和的腳標是G、I、L

現在分給了3部分L和G部分求和後當然就等於了1，但是I部分則不然，被求和的部分是S，而求和腳標是I，這樣就沒法繼續合併了。不過我們回想之前的獨立等價條件最後一條是說：

這樣就搞定了，發現D與S還是獨立的。這樣就證明了“圖不通就獨立定理”。

那麼不禁要問，圖什麼情況下不通呢？

先說結論：在已知父節點時，該節點與後代節點以外的節點不通。

姑且叫做“不通原則”

說的好囉嗦，直接看圖，如圖3

圖3

我們以Letter節點作爲例子，他的父節點時Grade，他的子孫是Job和Happy，所以他和剩下來的SAT、Intelligence、Difficulty、Coherence不通了。粗略分析下，這個環上面走不通是因爲Grade已知了；下面走不通是因爲Job不知道。分析原理上一講已經詳述了。

定義一個Imap

既然圖不通就獨立，如果這個不通的圖G對應的概率分佈是P，我們就稱G是P的I-map（independencymap）。

如果獨立的概率分佈P可以按照某個圖G分解，那麼G就是P的Imap。

反過來，如果G是概率分佈P的Imap，那麼P可以按照G來進行分解。

因此概率圖的就有了2種等價的觀點

1.概率圖G是用來表示概率分佈P的。

2.P是用來表達概率圖G所展示的獨立關係的。

證明一下概率圖和概率分佈爲啥是一回事

先寫出圖1中的條件，如圖4所示，用條件概率的鏈式法則寫出P，由G中連接關係可以化簡成爲貝葉斯網絡的鏈式法則。

圖4

尤其注意爲什麼有

這裏要用到之前說明的“不通原則”，L在已知D、G、I、S的前提下，他的非後代節點（他也沒有後代節點）是D、I、S，所以直接去掉。

這就說明了概率獨立關係與概率圖的連接關係其實是一回事。

下面介紹樸素貝葉斯模型

這個樸素貝葉斯叫做（Naïve Bayes）又叫（IdiotBayes…）

基本的樸素貝葉斯模型如圖5。

圖5

所有的X都是條件獨立的，即

由貝葉斯網絡的鏈式法則容易得到

有2類常用的樸素貝葉斯模型

舉個例子說明兩種貝葉斯模型分別是怎麼起作用的。現在有一篇文檔，由很多單詞組成。現在有2個類別可供選擇分別是“有關財務”和“有關寵物”。現在要把這篇文章歸檔。

其一：伯努利樸素貝葉斯（Bernoulli Naive Bayes）

伯努利樸素貝葉斯如圖6。

圖6

這種方式實質上是“查字典”，它把cat、dog、buy這些當做字典裏的詞目。

之所以伯努利是因爲，這種方式只管分析文章裏面有沒有出現詞典裏的詞目，而不管出現了多少次。詞典的條目都是只有0-1的二項分佈隨機變量。

文檔屬於這兩類的概率分別爲

每一個小乘積項代表了“如果這是一篇財務文檔，能出現cat字眼的概率是0.001”這樣的意義。

爲啥這個樸素了，因爲它假設了每個詞的條目出現是相互不影響的。

其二：多項式樸素貝葉斯（Multinomial Naïve Bayes）

這種方式與伯努利有本質不同，如圖7

圖7

W這些單元再也不是詞典的條目了，而是待分類文章中的真實單詞。

假如這篇文章寫了1991個詞，那麼就有1991個W

文檔屬於這兩類的概率依然分別爲

每一個小乘積項代表了“如果這是一篇財務文檔，在文章裏任意一個位置出現cat的概率是0.001”這樣的意思。你看錶還是那張表，但是現在完全不一樣了！因爲現在要求cat+dog+buy+sell這些概率加起來要等於1。而伯努利沒這個限制，隨意等於多少。這個區別很重要。

爲什麼這個貝葉斯也是樸素的呢？因爲它假定了在文章所有位置出現cat的概率是滿足同樣的分佈的，實際明顯不可能好不好。就像“敬愛的”必然一般都會出現在開頭，誰會在文章寫到一半來句這個。。。

總之樸素貝葉斯確實樸素，它只能用於隨機變量相關性較弱的情況，但很多情況實際確實挺弱的。。。所以樸素貝葉斯的效果Surprisingly effective

樸素貝葉斯被廣泛使用於各種領域。這裏就不展開了。優點還蠻多的。

歡迎參與討論並關注本博客和微博以及知乎個人主頁後續內容繼續更新哦~

轉載請您尊重作者的勞動，完整保留上述文字以及文章鏈接，謝謝您的支持！

ycheng_sjtu

發佈了54 篇原創文章 · 獲贊 86 · 訪問量 47萬+

私信關注

概率圖模型（PGM）學習筆記（四）-貝葉斯網絡-伯努利貝葉斯-多項式貝葉斯

Theano學習筆記（二）——邏輯迴歸函數解析

隱馬爾科夫模型（HMM）及其實現

Theano學習筆記（三）——圖結構

矢量化編程——以MNIST爲例

句法模式識別（二）-正規文法、上下文無關文法

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結