本文轉載自:http://blog.csdn.net/caiye917015406/article/details/7884293,謝謝原作者!
============================================================================
這幾天在學習貝葉斯分類,據說它的文本分析很給力,主要是應用簡單,所以就小試以下。。。。
首先看一下貝葉斯應用的一個小例子:
一個士兵射擊,分別在100,200,300處射擊擊的概率是0.7,0.2,0.1,而在各處射中目標的概率是0.6,0.2,0.04。現在目標已被擊毀,求士兵在200米擊中的概率?
這個要用到貝葉斯,設A1,A2,A3分別爲士兵在100,200,300處射擊,B爲擊中目標。
則P(A1)=0.7,P(A2)=0.2,P(A3)=0.1。P(B|A1)=0.6,P(B|A2)=0.2,P(B|A3)=0.04。由貝葉斯公式可知
P(A2|B)=(P(A2)*P(B|A2))/(P(A1)*P(B|A1)+P(A2)*P(B|A2)+P(A3)*P(B|A3))=(0.2*0.2)/(0.7*0.6+0.2*0.2+0.1*0.04)=0.08;
以上是貝葉斯的一個小應用,下面就詳細的學習貝葉斯(本人是菜鳥,文中大部分內容均是借鑑,如有不對,大家指出)
一貝葉斯公式
由以上我們已經可以看出貝葉斯公式,這裏給出更一般的公式:
對於各式的解釋,可以見例題,應該就沒問題了。
二貝葉斯分類
如果把樣本屬於某個類別作爲條件,樣本的特徵向量取值作爲結果,則模式識別的分類決策過程也可以看作是一種根據結果推測條件的推理過程。它可以分爲兩種類型:
一確定性分類決策:
特徵空間由決策邊界劃分爲多個決策區域,當樣本屬於某類時,其特徵向量一定落入對應的決策區域中,當樣本不屬於某類時,其特徵向量一定不會落入對應的決策區域中;現有待識別的樣本特徵向量落入了某決策區域中,則它一定屬於對應的類。
二隨機性分類決策:
特徵空間中有多個類,當樣本屬於某類時,其特徵向量會以一定的概率取得不同的值;現有待識別的樣本特徵向量取了某值,則它按不同概率有可能屬於不同的類,分類決策將它按概率的大小劃歸到某一類別中。
對於隨機性分類決策,可以利用貝葉斯公式來計算樣本屬於各類的後驗概率:
三貝葉斯分類器
1最小錯誤率貝葉斯分類器
當已知類別出現的先驗概率P(Wi)和每個類別在樣本中的概率爲P(x|Wi)時,已經求的後驗概率P(Wi|x).對於如此,利用最小錯誤率貝葉斯分類器的原理,可以做出以下判段:
兩類問題時,當P(Wi|x)>P(Wj|x)時,判決屬於類別Wi.
對於多類情況,當P(Wi|x)爲所有中最大的,則屬於Wi。
用圖表可以很清晰的看出其分界:
二最大似然比貝葉斯分類器
三最小風險貝葉斯分類器
在最小錯誤率貝葉斯分類器分類時,僅考慮了樣本屬於每一類的後驗概率最初分類決策,而沒有考慮每一種分類決策的風險。例如針對某項檢測指標進行癌症的診斷,如果計算出患者癌症和未患癌症的後驗率均爲50%,如果患者真實情況患了癌症,此時做出未患的診斷則會延誤時機,比做出患癌症的診斷帶來更爲嚴重的後果。
於是,在這種情況下,要做改進。因此,在獲得樣本屬於每一類的後驗概率後,需要綜合考慮各種分類決策的多帶來的風險,選擇分類風險最小的決策,這就是最小風險貝葉斯分類器。
這以上是貝葉斯的一般概念,對於貝葉斯分類器的構造還需要對參數進行估計,(未完待續)