機器學習---監督學習之樸素貝葉斯

通過概率對某數據進行預測。


重要的是:我們必須分清楚,已知和推斷。

  • 已知:小明和小紅穿紅色毛衣的概率
  • 推斷:穿紅色毛衣的概率是小明還是小紅
    專業術語就是:
  • 已知:小明和小紅(事件A)穿紅色毛衣(事件R)的概率(P(R|A))
  • 推斷:穿紅色毛衣的概率是小明還是小紅(P(A|R))

我們按照正常步驟求出所有事件發生的概率。

我們知道其中某個特性,找出包含這個特性的概率。

在他們之間進行預測剩下的事件概率。

就是樸素貝葉斯。


  1. 貝葉斯定理
    在這裏插入圖片描述
    事件A和事件B發生的各概率組合如上圖所示。P(A)和P(B)的概率叫先驗概率。
    現在我們想通過現有的一些條件再推其他的概率,比如:
    我們已經知道了事件R肯定發生,在這種情況下,分析A和B他們各自發生的概率。
    歸一化後的概率爲:
    在這裏插入圖片描述
    上圖的P(A|B)和P(B|R)是後驗概率,也就是在已知R發生條件下預測的概率。
    這就是貝葉斯定理。

  2. 例子
    已知:
    身體不舒服要去看病
    已知患病的檢測率是99%,也就是來看病的100人當中有99個病了。(事件A)
    正常人中,普遍來看,患病率是0.0001也就是萬分之一。健康爲事件H,生病爲事件S。
    推斷:
    P(S)=0.0001
    P(H)=0.9999
    P(A|S) =0.99
    P(A|H) =0.01
    那麼:
    患者被正確確診的概率是?
    P(SA)=P(S)P(AS)P(S)P(AS)+P(H)P(AH)=0.0098P(S|A)=\frac{P(S)P(A|S)}{P(S)P(A|S)+P(H)P(A|H)}=0.0098
    在這裏插入圖片描述
    在這裏插入圖片描述
    這個問題應當被這麼問:一個人羣中的人患病並且被正確的確診出來患病的概率是多少?
    這樣再看上圖就會清晰很多。

  3. 樸素貝葉斯
    上面是概率中,我們假設每件事情都是相互獨立的,所以直接用乘法公式即可。
    這是一種很簡單的方法,所以叫樸素貝葉斯算法。

貝葉斯基本公式:P(A|B)P(B)=P(B|A)P(A)=P(AB)
現在把P(B)去掉,這樣公式就成了P(AB)P(BA)P(A)P(A|B)\propto P(B|A)P(A)
爲何好好的樸素貝葉斯不用,非要用正比於呢?因爲我們P(B)事件一旦多了,他們不一定是獨立的,很可能是相互影響的。
我們運用正比於符號,這樣雖然算出來的數據和不會爲1,但是進行歸一化之後就會準確很多。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章