淺談對於《機器學習》(周志華)第四章4.2.1信息增益與ID3決策樹訓練算法的個人理解

開始聊聊我對於《機器學習》(周志華)第四章4.2.1信息增益與ID3決策樹訓練算法的理解。

What’s that?

衡量標準-熵

要想學習理解ID3以及一些決策樹訓練算法首先就要引入這個概念
第一次看到“熵”這個名詞第一反應還是小學的時候數學老師天天商商商的日子,Wow,十幾年過去了,
現在咱們討論的是表示:隨機變量不確定性的度量(解釋:說白了就是物體內部的混亂程度,比如雜貨市場裏面什麼都有那肯定混亂呀,專賣店裏面只賣一個牌子的那就穩定多啦),不確定性越大,得到的熵值也就越大!

Example: A集合[1,1,1,1,1,1,1,1,2,2]
         B集合[1,2,3,4,5,6,7,8,9,1]

顯然A集合的熵值要低,因爲A裏面只有兩種類別,相對穩定一些,而B中類別太多了熵值就會大很多。

是不是很好理解?

這裏我去看了些B站視頻,又從一些B站視頻找到了知乎YJango的視頻,非常建議看看
在此附上二維碼傳送門!
在這裏插入圖片描述

How to measure?

熵的度量

瞭解了熵的定義,接下來講一下它要如何度量
熵的度量可以分爲兩種情況:
一、等概率均勻分佈
在這裏插入圖片描述
此時熵的度量非常簡單,我們可以假設以拋硬幣爲單位度量熵,正反的概率都是1/2.
那麼此時若有8種不同的情況,把8帶入公式中的m,便可以得出n=3(bit)
那麼此時若有4種不同的情況,把8帶入公式中的m,便可以得出n=2(bit)
那麼此時若有10種不同的情況,把10帶入公式中的m,便可以得出n=log2 10(bit)

彷彿一切都很簡單,現在我們就要考慮每種概率不相等的一般分佈了
二、不等概率一般分佈
這裏可以直接引用西瓜書的公式ba
在這裏插入圖片描述
把概率代入即可

信息熵(Information entropy)

其實從我的理解來講,我認爲信息熵只是熵的一個具體化或者實例化,如果你願意,你也可以把它理解成子類繼承父類(或許對,也或許不對)他裏面太多的性質都在前面對於“”的引入中提到了,我們可以看看西瓜書上的,極其簡要的說明。
在這裏插入圖片描述
在旁邊我們還能看到兩條小小的說明:
在這裏插入圖片描述
其中對於第二條Ent(D)的最小值和最大值的求解,我們可以參考“南瓜書”(對於西瓜書中的公式進行推導的完整記錄)以下是對於南瓜書中對Ent(D)求出最大最小值的過程的鏈接(或許需要科學上網,我也不確定):https://datawhalechina.github.io/pumpkinbook/#/chapter4/chapter4

信息增益

在決策樹算法的學習過程中,信息增益是特徵選擇的一個重要指標,它定義爲一個特徵能夠爲分類系統帶來多少信息,帶來的信息越多,說明該特徵越重要,相應的信息增益也就越大。
信息熵是代表隨機變量的複雜度(不確定度)
條件熵代表在某一個條件下,隨機變量的複雜度(不確定度)。

而我們的信息增益恰好是:信息熵-條件熵。換句話說,信息增益代表了在一個條件下,信息複雜度(不確定性)減少的程度。那麼我們現在也很好理解了,在決策樹算法中,我們的關鍵就是每次選擇一個特徵,特徵有多個,那麼到底按照什麼標準來選擇哪一個特徵。這個問題就可以用信息增益來度量。如果選擇一個特徵後,信息增益最大(信息不確定性減少的程度最大),那麼我們就選取這個特徵。

有了上面的基礎,我們就可以來研究思考ID3算法了

ID3決策樹訓練算法

ID3算法其實可以簡單的理解爲,每一次選擇可以使信息增益最大(可以使我得到的信息最大化)的條件進行分支。根據例子我們來進行理解
我們引用了《機器學習》的表4.1爲例
在這裏插入圖片描述
在這個數據集中,正例所佔比例爲8/17,反例所佔比例爲9/17,正如書中的那樣,此時可以求出根節點的信息熵爲0.998.
在這裏插入圖片描述
接下來看各個屬性,一共六個{色澤,根蒂,敲聲,紋理,臍部,觸感},我們要分別求出他們各自的信息增益,這裏還是以色澤爲例,對所有不同色澤的成員分類,可以分爲D1.{青綠},D2.{烏黑},D3.{淺白} 三個集合,再針對他們三個集合求出信息熵。
在這裏插入圖片描述
接下來,我們要求出“色澤”可以爲我們帶來的信息增益了
在這裏插入圖片描述
注意:這裏求條件熵的時候,一定要注意乘上其所佔的權重!!!
計算起來或許確實比較麻煩,不過如果只要不要求手動畫出來用代碼實現,應該還是…
類似的,我們也要求出其他5種影響因素的信息增益!
這裏直接上圖
在這裏插入圖片描述
顯而易見的,紋理帶來的信息增益最大,那麼我們就以他爲根節點,以他紋理“清晰”的條件爲劃分,構建屬性集合求出各個屬性的信息增益
在這裏插入圖片描述
觸感,根蒂,臍部三者的信息增益相等且最大,可以任選一個進行分支,接下來,以此類推~決策樹構建結果如圖
在這裏插入圖片描述
至此,以上完整的ID3算法實例講解。

鳴謝以下參考書籍及網站
[1]. 周志華 機器學習 清華大學出版社,2016
[2].https://www.zhihu.com/question/22104055
[3].https://www.zhihu.com/people/YJango
[4].https://www.bilibili.com/video/av79015715?p=169

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章