分類問題
- 分類是一種有監督的學習
- 貝葉斯定理:頭痛和流感的關係
樸素貝葉斯分類
- 爲何樸素?
需要假設條件獨立 - 何爲條件獨立?
- 肺癌和性別的關係,不能簡單說男性得肺癌的概率大於女性,需要考慮得肺癌的條件:抽菸,
在抽菸的情況下,得肺癌的概率大於不抽菸的情況。 - 拋硬幣問題,一枚正常硬幣,一枚雙面相同的硬幣,拋硬幣概率不同。
- 肺癌和性別的關係,不能簡單說男性得肺癌的概率大於女性,需要考慮得肺癌的條件:抽菸,
- 獨立不等於不相關
- 避免出現概率爲0?
拉普拉斯平滑:樣本加1 - 應用
文本推薦:統計感興趣文本中單詞出現的概率,當新出現一個文本時,通過計算文本中單詞出現的概率,來推測對文本感興趣的概率。
決策樹
- 奧卡姆的剃刀:相同效果,選簡單的模型
- 決策樹的選取?
決策樹算法
ID3 (Iterative Dichotomizer 3)
迭代劃分,確定屬性節點,確定停止條件
計算熵值,熵值最大爲1,越大越表示不確定
計算信息增益,信息增益越大越好,越能區分 -> 確定屬性
剪枝 Pruning
決策樹太長:過擬合; 決策樹太短:無法分類複雜數據集
軟件:
Naive Bayes algorithm for learning to classify text
http://www.cs.cmu.edu/afs/cs/project/theo-11/www/naive-bayes.html