最近看西瓜書的決策樹這一章,給我看懵了。感覺得自己動手一步一步計算才能理解具體怎麼構造的,然後才能寫程序。就以書上的西瓜集2.0爲例:
1.先搞清兩個概念: 信息熵和信息增益信息熵越小,純度越高。計算公式如下:
條件熵:
信息增益越大,意味着獲得的“純屬提升”越大。因此我們使用信息增益來進行決策樹的劃分屬性選擇。
計算過程如下:
插一句題外話,由上圖可見手機鏡頭會讓原圖發生凹凸變化,所以鏡子裏的我纔是真實的哈哈哈哈哈,其實是因爲鏡子裏的我比相機好看>0<~~~
但是信息增益存在的問題,它對數目較多的屬性有所偏好。爲了減少這種偏好可能帶來的不利影響,
引入增益率的概念:
增益率則是對可取數目較少的屬性有偏好,所以先從候選劃分屬性中找出信息增益高於平均水平的屬性,再從中選擇增益率最高的。
2.接下來進行剪枝處理
目的:對付過擬合