通過概率對某數據進行預測。
重要的是:我們必須分清楚,已知和推斷。
- 已知:小明和小紅穿紅色毛衣的概率
- 推斷:穿紅色毛衣的概率是小明還是小紅
專業術語就是: - 已知:小明和小紅(事件A)穿紅色毛衣(事件R)的概率(P(R|A))
- 推斷:穿紅色毛衣的概率是小明還是小紅(P(A|R))
我們按照正常步驟求出所有事件發生的概率。
我們知道其中某個特性,找出包含這個特性的概率。
在他們之間進行預測剩下的事件概率。
就是樸素貝葉斯。
-
貝葉斯定理
事件A和事件B發生的各概率組合如上圖所示。P(A)和P(B)的概率叫先驗概率。
現在我們想通過現有的一些條件再推其他的概率,比如:
我們已經知道了事件R肯定發生,在這種情況下,分析A和B他們各自發生的概率。
歸一化後的概率爲:
上圖的P(A|B)和P(B|R)是後驗概率,也就是在已知R發生條件下預測的概率。
這就是貝葉斯定理。 -
例子
已知:
身體不舒服要去看病
已知患病的檢測率是99%,也就是來看病的100人當中有99個病了。(事件A)
正常人中,普遍來看,患病率是0.0001也就是萬分之一。健康爲事件H,生病爲事件S。
推斷:
P(S)=0.0001
P(H)=0.9999
P(A|S) =0.99
P(A|H) =0.01
那麼:
患者被正確確診的概率是?
這個問題應當被這麼問:一個人羣中的人患病並且被正確的確診出來患病的概率是多少?
這樣再看上圖就會清晰很多。 -
樸素貝葉斯
上面是概率中,我們假設每件事情都是相互獨立的,所以直接用乘法公式即可。
這是一種很簡單的方法,所以叫樸素貝葉斯算法。
貝葉斯基本公式:P(A|B)P(B)=P(B|A)P(A)=P(AB)
現在把P(B)去掉,這樣公式就成了
爲何好好的樸素貝葉斯不用,非要用正比於呢?因爲我們P(B)事件一旦多了,他們不一定是獨立的,很可能是相互影響的。
我們運用正比於符號,這樣雖然算出來的數據和不會爲1,但是進行歸一化之後就會準確很多。