統計學習筆記(4)——樸素貝葉斯法

         樸素貝葉斯法是基於貝葉斯定理與特徵條件獨立假設的分類方法。簡單來說,樸素貝葉斯分類器假設樣本每個特徵與其他特徵都不相關。舉個例子,如果一種水果具有紅,圓,直徑大概4英寸等特徵,該水果可以被判定爲是蘋果。儘管這些特徵相互依賴或者有些特徵由其他特徵決定,然而樸素貝葉斯分類器認爲這些屬性在判定該水果是否爲蘋果的概率分佈上獨立的。儘管是帶着這些樸素思想和過於簡單化的假設,但樸素貝葉斯分類器在很多複雜的現實情形中仍能夠取得相當好的效果。樸素貝葉斯分類器的一個優勢在於只需要根據少量的訓練數據估計出必要的參數(離散型變量是先驗概率和類條件概率,連續型變量是變量的均值和方差)。

1.貝葉斯分類模型

        貝葉斯分類模型如下:


       其中,X表示屬性集,Y表示類變量,P(Y)爲先驗概率,P(X|Y)爲類條件概率,P(X)爲證據,P(Y|X)爲後驗概率。貝葉斯分類模型就是用先驗概率P(Y)、類條件概率P(X|Y)和證據P(X)來表示後驗概率。在比較Y的後驗概率時,分母中的證據P(X)總是常數,因此可以忽略不計。先驗概率P(Y)可以通過計算訓練集中屬於每個類的訓練記錄所佔的比例很容易估計。對類條件概率P(X|Y)的估計,不同的實現決定不同的貝葉斯分類方法,常見的有樸素貝葉斯分類法和貝葉斯信念網絡。

2.樸素貝葉斯分類模型



3.實例

        數據集如下:


         從該數據集計算得到的先驗概率以及每個離散屬性的類條件概率、連續屬性的類條件概率分佈的參數(樣本均值和方差)如下:

先驗概率:P(Yes)=0.3;P(No)=0.7

P(有房=是|No) = 3/7

P(有房=否|No) = 4/7

P(有房=是|Yes) = 0

P(有房=否|Yes) = 1

P(婚姻狀況=單身|No) = 2/7

P(婚姻狀況=離婚|No) = 1/7

P(婚姻狀況=已婚|No) = 4/7

P(婚姻狀況=單身|Yes) = 2/3

P(婚姻狀況=離婚|Yes) = 1/3

P(婚姻狀況=已婚|Yes) = 0

年收入:

如果類=No:樣本均值=110; 樣本方差=2975

如果類=Yes:樣本均值=90; 樣本方差=25

——》待預測記錄:X={有房=否,婚姻狀況=已婚,年收入=120K}

P(No)*P(有房=否|No)*P(婚姻狀況=已婚|No)*P(年收入=120K|No)=0.7*4/7*4/7*0.0072=0.0024

P(Yes)*P(有房=否|Yes)*P(婚姻狀況=已婚|Yes)*P(年收入=120K|Yes)=0.3*1*0*1.2*10-9=0

由於0.0024大於0,所以該記錄分類爲No。

從上面的例子可以看出,如果有一個屬性的類條件概率等於0,則整個類的後驗概率就等於0。僅僅使用記錄比例來估計類條件概率的方法顯得太脆弱了,尤其是當訓練樣例很少而屬性數目又很多時。解決該問題的方法是使用m估計方法來估計條件概率:




發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章