決策樹（DecisionTree）

原創

笨拙的石头

2020-02-21 14:12

一、決策樹前置知識準備

1.1 信息熵

信息熵也叫香農熵，其計算公式爲：

1.2 條件熵

在給定X的條件下，所有的不同x值的條件下Y的熵的平均值叫做條件熵。

計算公式爲：

1.3 純度度量的公式(值越大越不純)

1）信息熵

2）基尼係數

3）錯誤率

二、決策樹

sklearn.tree.DecisionTreeClassifier(criterion=’gini’, splitter=’best’, max_depth=None, min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features=None, random_state=None, max_leaf_nodes=None, min_impurity_decrease=0.0, min_impurity_split=None, class_weight=None, presort=False)

2.1 決策樹的構建方法：

決策樹的構建是決策樹算法的重點。在KNN中我們講過KD-Tree的構建，決策樹的構建方法與此類似。不同的是KD-Tree中的劃分方法是具有最大方差的特徵進行劃分。決策樹的劃分指標是要求劃分的葉子節點的數據足夠的“純”。因此，在決策樹（分類）中，我們使用其他的劃分指標，如ID3的信息增益，C4.5的信息增益率，CART中的基尼增益率劃分等。

在迴歸樹中，我們使用MSE或者MAE作爲數據劃分指標，最後的迴歸值爲待測數據點所在的葉子節點的數據點的樣本平均值。

決策樹的劃分是一種“貪心”的劃分，只考慮當前劃分的特徵能否使得數據足夠的純，不考慮最終的結果，它是不能夠回溯的。

具體的構建方法如下：

1）計算每個特徵的“純”度值的劃分指標（就是上面提到的信息增益、信息增益率、基尼增益率等）的值。

2）選擇“純”度較低的特徵（也就是最優的劃分特徵）進行數據劃分，得到相應的子節點。

3）重複上面兩個步驟，繼續劃分，直到達到停止條件則停止構建。

決策樹劃分的停止條件主要有：

1）每個葉子節點只有一種類型的時候則停止構建

2）決策樹的層數、迭代次數或者節點中的數據點的個數少於給定閾值，則停止構建。

考慮到數據點較多的情況下按照停止條件1構建得到的樹深度過大（會出現過擬合問題），所以一般採用停止條件2來構建決策樹。

2.2 決策樹常見的幾種算法

1） ID3算法

2） C4.5算法（剪枝操作）

3） CART算法（二叉樹，也是最常用的一種）

三種算法的基本區別就是數據分割的標準不同，ID3的信息增益，C4.5的信息增益率，CART中的基尼增益率劃分。此外，ID3只能夠用於離散數據的處理；C4.5可以處理連續數據點；CART爲分類迴歸樹且必須爲二叉樹。

2.3 決策樹算法效果評估

決策樹算法效果評估方法和一般算法一樣，也採用混淆矩陣進行計算準確率、召回率、精確率等指標。

此外，決策樹還可以採用葉子節點的純度值進行效果評估，值越小效果越好。即：

其中leaf表示葉子節點的總個數，Dt表示葉子節點中的數據點個數，D表示數據點總個數，H(t)表示“純”度信息。

2.4 決策樹的特徵選擇(feature_importances)

在決策樹構建的過程中，我們將信息增益率較大的特徵首先進行分割，因此我們認爲越是在決策樹上層的特徵具有越強的作用。所以我們可以適用決策樹進行特徵選擇的操作。

在sklearn的API中，我們可以運用feature_importances參數輸出各個特徵的重要性程度值。值越大表示特徵越重要，反之亦然。

三、決策樹的剪枝操作

在我們的決策樹構建過程中，我們設置停止條件如定義決策樹的深度等方法提前結束決策樹的構建的方法叫做前置剪枝。

在我們的決策樹構建過程中，我們首先建立好決策樹，然後根據一定的規則，逐漸剪除葉子節點，直至最後的根節點，將每次剪枝後的模型作爲一棵決策樹。然後，對這n棵樹進行模型訓練測試，選擇最優的樹作爲最終的決策樹模型。這個過程叫做後置剪枝。

不管是前置剪枝，還是後置剪枝都是決策樹算法最簡單、最有用的優化方法。

剪枝的指標：剪枝係數α

在剪枝過程中，我們認爲葉子節點中的數據點個數越多，決策樹越複雜，剪枝後的loss值越大。

這裏重新定義新的loss值爲：，其中leaf爲葉子節點數

這裏我們希望剪枝前後的loss值不變，因此當時，得到剪枝係數α的求解公式爲：

其中，表示剪枝後的損失函數值，表示剪枝前的損失函數值，表示剪枝前的葉子節點數。

我們希望剪枝後的模型損失函數最小

笨拙的石頭

發佈了25 篇原創文章 · 獲贊 81 · 訪問量 14萬+

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Opal 機器學習平臺：愛奇藝數智一體化實踐

01 綜述 Opal 是愛奇藝大數據團隊研發的機器學習平臺，包含特徵生產、樣本構建、模型訓練、模型部署在內的多環節 Bigdata + AI 開發服務，內置多種訓練鏡像、

愛奇藝技術產品團隊

2024-06-01 02:21:16

基於對比稀疏擾動技術的時間序列解釋框架 ContraLSP

開篇近日，由阿里雲計算平臺大數據基礎工程技術團隊主導，與南京大學、賓夕法尼亞州立大學、清華大學等高校合作，解釋時間序列預測模型的論文《Explaining Time Series via Contrastive and Locally

2024-06-01 00:25:50

兒童節變身小小音樂家*用ModelArts製作一張AIGC音樂專輯

本文分享自華爲雲社區《兒童節變身小小音樂家*用ModelArts製作一張AIGC音樂專輯》*作者* 華爲雲社區精選。兒童節*如何給小朋友準備一份特別的禮物* 這份AIGC音樂專輯製作攻略一定要收下一段文字靈感就能編織出一曲悠揚悅耳的旋

2024-05-31 11:04:39

金融反欺詐指南：車險欺詐爲何如此猖獗？

青島市人民檢察院在其官方微信公衆號上發佈的梁某保險詐騙案顯示，2020 年以來，某汽修廠負責人梁某、某汽車服務公司負責人孫某，與保險公司的趙某等人相互勾結，收購二手北汽等品牌新能源汽車，併爲這些車輛購買車損險。隨後，他們利用暴雨天氣，故意製

2024-05-30 00:16:51

還能報名！風靡硅谷開發者的 Unstructured Data Meetup 即將登陸中國！

“最硅谷”的 Unstructured Data Meetup 即將來襲！衆所周知，AI 三要素包括：算力、算法和數據。數據的價值愈發凸顯，而其中非結構化數據更是備受關注。IDC 預測，到 2025 年，全球數據總量中將有超過 80% 的

2024-05-29 02:18:59

AI安全志：英國AI騙保事件增加300%！

最近，英國《衛報》報道稱，一些騙子正在利用人工智能照片編輯軟件篡改照片，以進行保險欺詐活動。這一發現令保險公司震驚，因爲這可能導致汽車保險費用飆升至歷史最高水平。安聯保險公司表示，從2021年至2023年期間，利用應用程序篡

2024-05-28 00:15:50

文心大模型免費辣，動手搓點啥慶祝一下吧

5月21日下午，百度智能雲宣佈文心大模型的兩款主力模型ENIRE Speed、ENIRE Lite全面免費，即刻生效。這兩款大模型都是今年3月剛剛發佈的，均支持8K和128k上下文長度。可以說，這是百度最新的模型

2024-05-24 12:13:22

風控指南：國內車險欺詐呈現四大趨勢

2024年4月11日，國家金融監督管理總局官網發佈國家金融監督管理總局關於《反保險欺詐工作辦法（徵求意見稿）》公開徵求意見的公告。《徵求意見》共6章、37條，明確反保險欺詐工作目標是建立“監管引領、機構爲主、行業聯防、各方協同”四位一體的

2024-05-23 12:16:45

五款擴展組件齊發 —— Volcano、Keda、Crane-scheduler 等，邀你體驗

今年 3 月，KubeSphere 啓動了首屆擴展組件開發者訓練營，吸引了 60 名開發者報名。經過一個半月的密集培訓和實戰演練，這些開發者成功打造了五款創新的擴展組件，現已全部上架至 KubeSphere Marketplace，歡迎大家

2024-05-23 11:17:40

基於 Milvus + LlamaIndex 實現高級 RAG

隨着大語言模型（LLM）技術的發展，RAG（Retrieval Augmented Generation）技術得到了廣泛探討和研究，越來越多的高級 RAG 檢索方法也隨之被人發現，相對於普通的 RAG 檢索，高級 RAG 通過更深化的技術細

2024-05-22 21:25:18

站在岸上學不會游泳 | 算法校招生的高效成長總結

在這個由數據編織、由算法驅動的時代，AI大模型正成爲推動社會進步的重要力量。我們不僅是變革的見證者，更是推動者和塑造者。感謝零售UP技術人欄目的邀請，本文藉此機會回顧一下自己的算法之路上的一些故事和思考，希望能帶給讀者一些幫助。介紹自

2024-05-22 11:56:42

全球廠商之最，華爲17篇論文入選國際數據庫頂會ICDE

本文分享自華爲雲社區《全球廠商之最，華爲GaussDB&GeminiDB，17篇論文入選國際數據庫頂會ICDE》，作者：GaussDB 數據庫。 5月13-17日，國際數據庫頂級學術會議 ICDE 2024 於荷蘭烏得勒支舉行。華爲Gau

2024-05-22 10:58:13

Gen AI 連接非結構化數據，Unstructured Data Meetup 第二場官宣杭州！

定了！6 月 15 日，備受硅谷開發者喜愛的 Unstructured Data Meetup 第二場將在杭州舉辦！衆所周知，AI 三要素包括：算力、算法和數據。數據的價值愈發凸顯，而其中非結構化數據更是備受關注。IDC 預測，到 202

2024-05-20 21:25:07

探索未知：風靡硅谷開發者的 Unstructured Data Meetup 即將登陸中國

“最硅谷”的 Unstructured Data Meetup 即將來襲！衆所周知，AI 三要素包括：算力、算法和數據。數據的價值愈發凸顯，而其中非結構化數據更是備受關注。IDC 預測，到 2025 年，全球數據總量中將有超過

2024-05-15 21:26:01

爲程序員和新手準備的 8 大 Python 工具

Python 是一種開源編程語言，用於 Web 編程、數據科學、人工智能和許多科學應用。學習 Python 使程序員能夠專注於解決問題，而不是專注於語法，其豐富的庫賦予它完成偉大任務所需的力量。 1) IDLE 安裝 Python 時

2024-05-14 01:06:43

24小時熱門文章

最新文章

最新評論文章