決策樹的理解

  1. 決策樹的分類速度快

    決策樹有個步驟:特徵選擇,決策樹生成,和決策樹的修剪。

  2. 特許選擇:在於選取對訓練數據具有分類能力的特徵,這樣可以提高決策樹學習的效率。如果利用一個特徵進行分類的結果與隨機分類的結果沒有很大差別,則稱這個特徵是沒有分類能力的。經驗上任掉這些的特徵對決策樹學習的精度影響。

  3. 通常特徵選擇的準則是信息增益,或信息增益比。

    在學習信息增益的時候,首先是要了解一個概念:熵(entropy)是表示隨機變量不確定的度量,

    信息越少,越是不確定,熵也就會越大。熵的公式爲H(x)=-sum(pi*logpi)(i=1,2....n)

    熵的取值只依賴於x的分佈,並不是x越大,熵就越大,等。

    信息增益 g(D,A)特徵A對訓練集D的信息增益==H(D)-H(D/A)之差。又稱互信息。


信息增益存在一定的問題,往往偏向於選擇取值較多的特徵的問題

後人又提出信息增益比:  gr(D,A)=g(D,A)/Ha(D)意思就是A在特徵D上的信息增益比上A的信息熵。

ID3,C4.5算法的生成不再這講

決策樹生成算法遞歸地產生決策樹,直到不能繼續下去爲止。模型複雜,這樣產生的樹往往對訓練數據的分類很正確,但是往往會出現過擬合現象,降低模型複雜度,就是對決策樹進行剪枝。

CART迴歸樹。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章