機器學習---監督學習之樸素貝葉斯

原創

I_AM_KK

2020-06-12 19:34

通過概率對某數據進行預測。

重要的是：我們必須分清楚，已知和推斷。

已知：小明和小紅穿紅色毛衣的概率
推斷：穿紅色毛衣的概率是小明還是小紅
專業術語就是：
已知：小明和小紅（事件A）穿紅色毛衣（事件R）的概率（P(R|A)）
推斷：穿紅色毛衣的概率是小明還是小紅(P(A|R))

我們按照正常步驟求出所有事件發生的概率。

我們知道其中某個特性，找出包含這個特性的概率。

在他們之間進行預測剩下的事件概率。

就是樸素貝葉斯。

貝葉斯定理

事件A和事件B發生的各概率組合如上圖所示。P(A)和P(B)的概率叫先驗概率。
現在我們想通過現有的一些條件再推其他的概率，比如：
我們已經知道了事件R肯定發生，在這種情況下，分析A和B他們各自發生的概率。
歸一化後的概率爲：

上圖的P(A|B)和P(B|R)是後驗概率，也就是在已知R發生條件下預測的概率。
這就是貝葉斯定理。
例子
已知：
身體不舒服要去看病
已知患病的檢測率是99%，也就是來看病的100人當中有99個病了。(事件A)
正常人中，普遍來看，患病率是0.0001也就是萬分之一。健康爲事件H，生病爲事件S。
推斷：
P(S)=0.0001
P(H)=0.9999
P(A|S) =0.99
P(A|H) =0.01
那麼：
患者被正確確診的概率是？
$P(S|A)=\frac{P(S)P(A|S)}{P(S)P(A|S)+P(H)P(A|H)}=0.0098$

這個問題應當被這麼問：一個人羣中的人患病並且被正確的確診出來患病的概率是多少?
這樣再看上圖就會清晰很多。
樸素貝葉斯
上面是概率中，我們假設每件事情都是相互獨立的，所以直接用乘法公式即可。
這是一種很簡單的方法，所以叫樸素貝葉斯算法。

貝葉斯基本公式：P(A|B)P(B)=P(B|A)P(A)=P(AB)
現在把P(B)去掉，這樣公式就成了 $P(A|B)\propto P(B|A)P(A)$
爲何好好的樸素貝葉斯不用，非要用正比於呢？因爲我們P(B)事件一旦多了，他們不一定是獨立的，很可能是相互影響的。
我們運用正比於符號，這樣雖然算出來的數據和不會爲1，但是進行歸一化之後就會準確很多。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

機器學習---監督學習之樸素貝葉斯

[轉帖]使用NMT和pmap解決JVM資源泄漏問題原創

Python實現大麥網搶票的四大關鍵技術點解析

Python 安裝庫指令大全

salesforce零基礎學習（一百三十八）零碎知識點小總結（十）

一款開源的.NET程序集反編譯、編輯和調試神器

關於接口協議，你必須要知道這些！

2020年上半年數據庫系統工程師考試

基於 Milvus + LlamaIndex 實現高級 RAG

【2024-05-21】以茶會友

折半查找的非遞歸算法和遞歸算法C++

c++把字符串形式數字轉換爲數字

hint: Updates were rejected because the remote contains work that you do hint: not have locally.

F#入門學習（二）

Python之for循環和range（）函數

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結