1.Gini係數
設pk爲節點S包含的K個不同的類別的數據記錄所佔的比例,則結點S的基尼係數G(S)定義如下:
基尼係數位於[0,1]區間,數字越小表明區分度越大。一次劃分的整體基尼係數等於劃分得到的孩子節點的基尼係數的加權平均,且權值被定義爲孩子節點包含的數據量。因此,如果S1和S2爲節點S在二元決策樹中的孩子節點,n1和n2爲S1和S2包含的記錄數,則劃分S→(S1,S2)的基尼係數定義如下:
設pk爲節點S包含的K個不同的類別的數據記錄所佔的比例,則結點S的基尼係數G(S)定義如下:
基尼係數位於[0,1]區間,數字越小表明區分度越大。一次劃分的整體基尼係數等於劃分得到的孩子節點的基尼係數的加權平均,且權值被定義爲孩子節點包含的數據量。因此,如果S1和S2爲節點S在二元決策樹中的孩子節點,n1和n2爲S1和S2包含的記錄數,則劃分S→(S1,S2)的基尼係數定義如下: