決策樹

原創

学海无涯子

2019-05-08 08:35

決策樹

決策樹說白了就好像是if-else結構一樣，它的結果就是你要生成這個一個可以從根開始不斷判斷選擇到葉子節點的樹，但是這裏的if-else必然不會是讓我們人爲去設置的，我們要做的是提供一種方法，計算機可以根據這種方法得到我們所需要的決策樹。這個方法的重點就在於如何從這麼多的特徵中選擇出有價值的，並且按照最好的順序由根到葉選擇。完成了這個我們也就可以遞歸構造一個決策樹了。

決策樹思想，實際上就是尋找最純淨的劃分方法，這個最純淨在數學上叫純度，純度通俗點理解就是目標變量要分得足夠開（y=1的和y=0的混到一起就會不純）。另一種理解是分類誤差率的一種衡量。實際決策樹算法往往用到的是，純度的另一面也即不純度，下面是不純度的公式。不純度的選取有多種方法，每種方法也就形成了不同的決策樹方法，比如ID3算法使用信息增益作爲不純度；C4.5算法使用信息增益率作爲不純度；CART算法使用基尼係數作爲不純度。

決策樹要達到尋找最純淨劃分的目標要幹兩件事：建樹和剪枝

一、建樹：

1. 信息增益（ID3算法）：

在信息論中，期望信息越小，那麼信息增益就越大，從而純度就越高。ID3算法的核心思想就是以信息增益來度量屬性的選擇，選擇分裂後信息增益最大的屬性進行分裂。該算法採用自頂向下的貪婪搜索遍歷可能的決策空間。

1) 信息熵與信息增益：

在信息增益中，重要性的衡量標準就是看特徵能夠爲分類系統帶來多少信息，帶來的信息越多，該特徵越重要。在認識信息增益之前，先來看看信息熵的定義。熵這個概念最早起源於物理學，在物理學中是用來度量一個熱力學系統的無序程度，而在信息學裏面，熵是對不確定性的度量。在1948年，香農引入了信息熵，將其定義爲離散隨機事件出現的概率，一個系統越是有序，信息熵就越低，反之一個系統越是混亂，它的信息熵就越高。所以信息熵可以被認爲是系統有序化程度的一個度量。

假如一個隨機變量X的取值爲X={x₁,x₂,..., x_n}，每一種取到的概率分別是{p₁, p₂,..., p_n}，那麼X的熵定義爲

意思是一個變量的變化情況可能越多，那麼它攜帶的信息量就越大。

對於分類系統來說，類別C是變量，它的取值是C₁, C₂,..., C_n，而每一個類別出現的概率分別是P(C₁), P(C₂),..., P(C_n), 而這裏的n就是類別的總數，此時分類系統的熵就可以表示爲

以上就是信息熵的定義，接下來介紹信息增益。

信息增益是針對一個一個特徵而言的，就是看一個特徵t，系統有它和沒有它時的信息量各是多少，兩者的差值就是這個特徵給系統帶來的信息量，即信息增益。

接下來以天氣預報的例子來說明。下面是描述天氣數據表，學習目標是play或者not play。

可以看出，一共14個樣例，包括9個正例和5個負例。那麼當前信息的熵計算如下

在決策樹分類問題中，信息增益就是決策樹在進行屬性選擇劃分前和劃分後信息的差值。假設利用屬性Outlook來分類，那麼如下圖

劃分後，數據被分爲三部分了，那麼各個分支的信息熵計算如下

那麼劃分後的信息熵爲

Entropy(S|T)代表在特徵屬性T的條件下樣本的條件熵。那麼最終得到特徵屬性T帶來的信息增益爲

信息增益的計算公式如下

其中S爲全部樣本集合，value(T)是屬性T所有取值的集合，v是T的其中一個屬性值，S_v是S中屬性T的值爲v的樣例集合，|S_v|爲S_v中所含樣例數。

在決策樹的每一個非葉子結點劃分之前，先計算每一個屬性所帶來的信息增益，選擇最大信息增益的屬性來劃分，因爲信息增益越大，區分樣本的能力就越強，越具有代表性，很顯然這是一種自頂向下的貪心策略。以上就是ID3算法的核心思想。

Reference:

http://blog.csdn.net/acdreamers/article/details/44661149

http://www.cnblogs.com/fionacai/p/5894142.html

http://www.cnblogs.com/leoo2sk/archive/2010/09/19/decision-tree.html

http://wiki.mbalib.com/wiki/%E5%86%B3%E7%AD%96%E6%A0%91

posted @ 2017-10-17 22:32 劉川楓閱讀(...) 評論(...) 編輯收藏

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

多線程和多進程 - 初窺

一、說明在平常工作中，我們使用top命令查看一臺linux服務器的cpu使用情況時，會發現某個進程的cpu使用率會超過100%，這是爲什麼？二、舉例實驗環境爲 CentOS7.6 + Python2.7 1. 多線程、多進程在操作系統

小豹子加油

2024-05-20 14:36:10

Xming - xmanager的替代方案

一、概述安裝某些數據庫的時候使用圖像化還是比較方便的，但是由於服務器一般不提供圖形化界面。之前一直都是使用Xmanager去導出圖形，但是Xmanager是收費的，公司不讓用，所以找了一款可以完美替代的產品Xming，本文將介紹xming

小豹子加油

2024-05-20 14:36:10

Mysql - 數據庫時區是客戶端屬性還是服務端屬性

一、說明同事問我數據庫的時區是客戶端屬性還是服務端屬性，我覺得這個問題十分有意思，之前沒怎麼留意，自己來做下實驗。首先介紹幾個術語。 GMT（Greenwich Mean Time），格林尼治平均時間。 UTC（Coordinated

小豹子加油

2024-05-20 14:36:10

sql求連續值問題

一. 找出表test1中tflag字段連續出現3次及以上爲1的行思路：1. 對行進行編號，2. 對相鄰三行進行求和算出值作爲sumflag，3. 如果值爲3，則該行以及接下來的2行都輸出出來，通過自關聯解決。 WITH tmp AS (

小豹子加油

2024-05-20 14:36:10

SQL優化-20231016

數據結構數據庫的表和索引缺一不可表特點：無序，插入速度快，查找速度慢索引（B+Tree）特點：有序，插入速度慢，查找速度快查找的效率比較，如果按照讀取的數據塊來計算？測試數據 TABLE_OWNER TABLE

小豹子加油

2024-05-20 14:36:10

兩臺數據庫在數據寫入時性能的差異

介紹：我有兩臺數據庫，分別稱爲200和203，200和203的服務器性能配置相當，203的配置甚至還要好一點。都是安裝的centos7.7，oracle 19C，均已開日誌歸檔，這兩臺服務器在同一個機房，同一個網段。當我在本地使用JDBC去

小豹子加油

2024-05-20 14:36:10

Linux安裝MySQL配置教程

1.使用系統的root賬戶 2.切換到 /use/local 目錄下 3.下載mysql 根據自己需要安裝的版本下載。 wget https://dev.mysql.com/get/Downloads/MySQL-8.0/mysq

2024-05-20 14:34:20

salesforce零基礎學習（一百三十七）零碎知識點小總結（九）

本篇參考： https://help.salesforce.com/s/articleView?id=release-notes.rn_lab_conditional_visibiliy_tab.htm&release=250&type=

2024-05-20 14:34:10

sql server sp_executesql 中使用表變量進行查詢

示例demo： DECLARE @table IdTableType INSERT INTO @table SELECT Id FROM dbo.t_pl_test DECLARE @SearchSQL NVARCHAR(MAX) SE

2024-05-20 14:32:10

Flink精確消費一次

在大數據計算裏面，計算引擎是處於承上啓下的作用，對上承接數據源，對下承接各種各種數據庫，比如mysql、oracle。對於任何數據計算來說要想精確消費一次，就需要支持事務或者冪等，我們最常見的支持事務的就是單點的oracle、mysql數

人不瘋狂枉一生

2024-05-20 14:27:59

5款.NET開源、免費、功能強大的圖表庫

LiveCharts2 LiveCharts2是一個.NET開源（MIT License）、簡單、靈活、交互式且功能強大的.NET圖表、地圖和儀表，現在幾乎可以在任何地方運行如：Maui、Uno Platform、Blazor-wasm、W

2024-05-20 14:26:59

終於搞懂了！原來 Vue 3 的 generate 是這樣生成 render 函數的

前言在之前的面試官：來說說vue3是怎麼處理內置的v-for、v-model等指令？文章中講了transform階段處理完v-for、v-model等指令後，會生成一棵javascript AST抽象語法樹。這篇文章我們來接着講gen

你假裝沒察覺

2024-05-20 14:26:19

Markdown基礎語法2024測試

標題一標題二標題三標題四標題五標題六 hr 加粗字體 b 斜體字體 i 引用內容 code 超鏈接 a blockquote ol > li 有序列表 ul > li 無須列表 pre 代碼塊 p 表格標

2024-05-20 14:26:09

ue5生成vs工程報錯-msvc版本太舊

ue生成VS工程報錯右鍵 - uproject ，Generating VisualStudio project files ，報錯信息如下：就是我安裝的msvc版本太舊 Running C:/Program Files/Epic Ga

2024-05-20 14:25:39

vscode 清理遠程服務器內存

因網絡中斷或其他原因，有時候服務器上留下較多無用的vscode-server進程，佔用內存資源可以採用如下命令kill進程 ps uxa | grep .vscode-server | awk '{print $2}' | xargs k

張博的博客

2024-05-20 14:24:58

24小時熱門文章

SQL優化-20231016

最新文章

最新評論文章