樸素貝葉斯法(naive Bayes):
樸素貝葉斯法是基於貝葉斯理論與特徵條件獨立假設的分類方法。 對於給定的數據集,基於特徵條件獨立假設學習輸入/輸出的聯合概率分佈,然後基於此模型,對給定的輸入,利用貝葉斯定理求解最大化後驗概率的輸出。
4.1 學習策略:
設輸入空間爲n維向量的集合,輸出空間爲類別標記的集合, ,是定義在輸入空間的隨機向量,是定義在輸出空間上的隨機變量,是隨機變量和的聯合概率分佈。
訓練數據集:
先驗概率分佈:
條件概率分佈:
樸素貝葉斯對條件概率做獨立性假設,即:
後驗概率:(給定輸入)
帶入得:
4.2 樸素貝葉斯分類器:
注意到所有分母均相同,由於化簡式爲:
後驗概率最大化的含義:
設損失函數爲0-1損失函數,期望風險函數爲:,由於期望是條件概率的期望,則該條件期望爲:
對逐個極小化,由此可得:
所以,根據期望風險最小化準則得到的後驗概率最大化準則:
4.3 貝葉斯參數估計:
極大似然估計:
先驗概率的極大似然估計:
條件概率的極大似然估計:
對給定的實例,計算,確定實例類別。
貝葉斯估計:
由於極大似然估計會出現估計的概率值爲0的情況,使分類產生偏差,使用貝葉斯估計解決該問題。
先驗概率的貝葉斯估計:
條件概率的貝葉斯估計: