西瓜書之決策樹的一生

最近看西瓜書的決策樹這一章,給我看懵了。感覺得自己動手一步一步計算才能理解具體怎麼構造的,然後才能寫程序。就以書上的西瓜集2.0爲例:

1.先搞清兩個概念: 信息熵和信息增益

信息熵越小,純度越高。計算公式如下:

在這裏插入圖片描述
條件熵:
在這裏插入圖片描述
信息增益越大,意味着獲得的“純屬提升”越大。因此我們使用信息增益來進行決策樹的劃分屬性選擇。
在這裏插入圖片描述
計算過程如下:
在這裏插入圖片描述
插一句題外話,由上圖可見手機鏡頭會讓原圖發生凹凸變化,所以鏡子裏的我纔是真實的哈哈哈哈哈,其實是因爲鏡子裏的我比相機好看>0<~~~
在這裏插入圖片描述
但是信息增益存在的問題,它對數目較多的屬性有所偏好。爲了減少這種偏好可能帶來的不利影響,
引入增益率的概念:
在這裏插入圖片描述
在這裏插入圖片描述
增益率則是對可取數目較少的屬性有偏好,所以先從候選劃分屬性中找出信息增益高於平均水平的屬性,再從中選擇增益率最高的。

2.接下來進行剪枝處理
目的:對付過擬合
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章