機器學習 | 分類 —— 決策樹:分支標準(熵/Gini係數)

1.Gini係數

設pk爲節點S包含的K個不同的類別的數據記錄所佔的比例,則結點S的基尼係數G(S)定義如下:

 基尼係數位於[0,1]區間,數字越小表明區分度越大。一次劃分的整體基尼係數等於劃分得到的孩子節點的基尼係數的加權平均,且權值被定義爲孩子節點包含的數據量。因此,如果S1和S2爲節點S在二元決策樹中的孩子節點,n1和n2爲S1和S2包含的記錄數,則劃分S→(S1,S2)的基尼係數定義如下:

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章