【學習筆記】《數據挖掘:理論與算法》CH3 從貝葉斯到決策樹

分類問題

  1. 分類是一種有監督的學習
  2. 貝葉斯定理:頭痛和流感的關係

樸素貝葉斯分類

  1. 爲何樸素?
    需要假設條件獨立
  2. 何爲條件獨立?
    • 肺癌和性別的關係,不能簡單說男性得肺癌的概率大於女性,需要考慮得肺癌的條件:抽菸,
      在抽菸的情況下,得肺癌的概率大於不抽菸的情況。
    • 拋硬幣問題,一枚正常硬幣,一枚雙面相同的硬幣,拋硬幣概率不同。
  3. 獨立不等於不相關
  4. 避免出現概率爲0?
    拉普拉斯平滑:樣本加1
  5. 應用
    文本推薦:統計感興趣文本中單詞出現的概率,當新出現一個文本時,通過計算文本中單詞出現的概率,來推測對文本感興趣的概率。

決策樹

  1. 奧卡姆的剃刀:相同效果,選簡單的模型
  2. 決策樹的選取?

決策樹算法

ID3 (Iterative Dichotomizer 3)
迭代劃分,確定屬性節點,確定停止條件
計算熵值,熵值最大爲1,越大越表示不確定
計算信息增益,信息增益越大越好,越能區分 -> 確定屬性

剪枝 Pruning
決策樹太長:過擬合; 決策樹太短:無法分類複雜數據集

軟件:
Naive Bayes algorithm for learning to classify text
http://www.cs.cmu.edu/afs/cs/project/theo-11/www/naive-bayes.html

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章