淺談對於《機器學習》（周志華）第四章4.2.1信息增益與ID3決策樹訓練算法的個人理解

原創

2020-03-04 15:41

開始聊聊我對於《機器學習》（周志華）第四章4.2.1信息增益與ID3決策樹訓練算法的理解。

文章目錄

What's that?

衡量標準-熵

How to measure？

ID3決策樹訓練算法

What’s that?

衡量標準-熵

要想學習理解ID3以及一些決策樹訓練算法首先就要引入熵這個概念
第一次看到“熵”這個名詞第一反應還是小學的時候數學老師天天商商商的日子，Wow，十幾年過去了，
現在咱們討論的熵是表示：隨機變量不確定性的度量（解釋：說白了就是物體內部的混亂程度，比如雜貨市場裏面什麼都有那肯定混亂呀，專賣店裏面只賣一個牌子的那就穩定多啦），不確定性越大，得到的熵值也就越大！

Example: A集合[1,1,1,1,1,1,1,1,2,2]
         B集合[1,2,3,4,5,6,7,8,9,1]

顯然A集合的熵值要低，因爲A裏面只有兩種類別，相對穩定一些，而B中類別太多了熵值就會大很多。

是不是很好理解？

這裏我去看了些B站視頻，又從一些B站視頻找到了知乎YJango的視頻，非常建議看看
在此附上二維碼傳送門！

How to measure？

熵的度量

瞭解了熵的定義，接下來講一下它要如何度量
熵的度量可以分爲兩種情況：
一、等概率均勻分佈

此時熵的度量非常簡單，我們可以假設以拋硬幣爲單位度量熵，正反的概率都是1/2.
那麼此時若有8種不同的情況，把8帶入公式中的m，便可以得出n=3(bit)
那麼此時若有4種不同的情況，把8帶入公式中的m，便可以得出n=2(bit)
那麼此時若有10種不同的情況，把10帶入公式中的m，便可以得出n=log2 10(bit)

彷彿一切都很簡單，現在我們就要考慮每種概率不相等的一般分佈了
二、不等概率一般分佈
這裏可以直接引用西瓜書的公式ba

把概率代入即可

信息熵(Information entropy)

其實從我的理解來講，我認爲信息熵只是熵的一個具體化或者實例化，如果你願意，你也可以把它理解成子類繼承父類（或許對，也或許不對）他裏面太多的性質都在前面對於“熵”的引入中提到了，我們可以看看西瓜書上的，極其簡要的說明。

在旁邊我們還能看到兩條小小的說明：

其中對於第二條Ent(D)的最小值和最大值的求解，我們可以參考“南瓜書”（對於西瓜書中的公式進行推導的完整記錄）以下是對於南瓜書中對Ent(D)求出最大最小值的過程的鏈接（或許需要科學上網，我也不確定）：https://datawhalechina.github.io/pumpkinbook/#/chapter4/chapter4

信息增益

在決策樹算法的學習過程中，信息增益是特徵選擇的一個重要指標，它定義爲一個特徵能夠爲分類系統帶來多少信息，帶來的信息越多，說明該特徵越重要，相應的信息增益也就越大。
信息熵是代表隨機變量的複雜度（不確定度）
條件熵代表在某一個條件下，隨機變量的複雜度（不確定度）。
而我們的信息增益恰好是：信息熵-條件熵。換句話說，信息增益代表了在一個條件下，信息複雜度（不確定性）減少的程度。那麼我們現在也很好理解了，在決策樹算法中，我們的關鍵就是每次選擇一個特徵，特徵有多個，那麼到底按照什麼標準來選擇哪一個特徵。這個問題就可以用信息增益來度量。如果選擇一個特徵後，信息增益最大（信息不確定性減少的程度最大），那麼我們就選取這個特徵。

有了上面的基礎，我們就可以來研究思考ID3算法了

ID3決策樹訓練算法

ID3算法其實可以簡單的理解爲，每一次選擇可以使信息增益最大（可以使我得到的信息最大化）的條件進行分支。根據例子我們來進行理解
我們引用了《機器學習》的表4.1爲例

在這個數據集中，正例所佔比例爲8/17，反例所佔比例爲9/17，正如書中的那樣，此時可以求出根節點的信息熵爲0.998.

接下來看各個屬性，一共六個{色澤，根蒂，敲聲，紋理，臍部，觸感}，我們要分別求出他們各自的信息增益，這裏還是以色澤爲例，對所有不同色澤的成員分類，可以分爲D1.{青綠}，D2.{烏黑}，D3.{淺白} 三個集合，再針對他們三個集合求出信息熵。

接下來，我們要求出“色澤”可以爲我們帶來的信息增益了

注意：這裏求條件熵的時候，一定要注意乘上其所佔的權重！！！
計算起來或許確實比較麻煩，不過如果只要不要求手動畫出來用代碼實現，應該還是…
類似的，我們也要求出其他5種影響因素的信息增益！
這裏直接上圖

顯而易見的，紋理帶來的信息增益最大，那麼我們就以他爲根節點，以他紋理“清晰”的條件爲劃分，構建屬性集合求出各個屬性的信息增益

觸感，根蒂，臍部三者的信息增益相等且最大，可以任選一個進行分支，接下來，以此類推~決策樹構建結果如圖

至此，以上完整的ID3算法實例講解。

鳴謝以下參考書籍及網站
[1]. 周志華機器學習清華大學出版社，2016
[2].https://www.zhihu.com/question/22104055
[3].https://www.zhihu.com/people/YJango
[4].https://www.bilibili.com/video/av79015715?p=169

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

淺談對於《機器學習》（周志華）第四章4.2.1信息增益與ID3決策樹訓練算法的個人理解

文章目錄

What’s that?

衡量標準-熵

How to measure？

熵的度量

信息熵(Information entropy)

信息增益

ID3決策樹訓練算法

Python 潮流週刊#52：Python 處理 Excel 的資源

計算方法-拉格朗日插值法實現函數擬合

基於Java實現通過復化梯形公式、復化辛普森公式以及精度爲0.025的自動選步長梯形公式對積分求解

計算方法-4階(經典)龍格-庫塔法解微分方程組-基於Python

淺談對於《機器學習》（周志華）第四章4.2.1信息增益與ID3決策樹訓練算法的個人理解

計算方法-基於Python實現牛頓法求非線性方程的根

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結