決策樹詳細筆記及python實現

原創

2020-03-22 14:18

決策樹優點：模型具有可讀性、分類速度快。

決策樹的學習包括3個步驟：特徵選擇、決策樹的生成、決策樹剪枝。

1 決策樹模型與學習

決策樹的學習本質上是從訓練數據集中歸納出一組分類規則。損失函數通常是正則化的極大似然函數。

決策樹學習的算法通常是一個遞歸地選擇最有特徵，並根據該特徵對訓練數據集進行分割，使得對各個子數據集有一個最好的分類過程。這一過程對應着特徵空間的劃分，也對應着決策樹的構建。開始，構建根節點，將所有的訓練數據都放在根節點。選擇一個最優的特徵，按照這一特徵將訓練數據集分割成子集，使得各個子集有一個在當前條件下最好的分類。如果這些子集已經能夠被基本正確分類，那麼構建葉子節點，並將這些子集分到所對應的葉子節點中去；如果還有子集不能被基本正確分類，那麼就對這些子集選擇新的最優特徵，繼續對其進行分割，構建相應的結點。如此遞歸地進行下去，直到所有訓練數據子集被基本正確分類，或者沒有合適的特徵爲止。最後每個子集都被分到葉子結點上，就生成了一棵決策樹。

2 特徵選擇

信息增益

在信息論與概率統計中，熵（entropy）是表示隨機變量不確定性的度量。設X是一個離散隨機變量，其概率分佈爲：

隨機變量X的熵定義爲：

當隨機變量只取兩個值，1和0時，X的分佈爲:

熵

熵H(p)隨着概率p變化的曲線如圖所示：

條件熵

條件熵表示在已知隨機變量X的條件下隨機變量Y不確定性。

條件熵定義爲X給定條件下Y的條件概率分佈的熵對X的數學期望：

信息增益

信息增益表示得知特徵X的信息而使得類Y的信息的不確定性減少的程度。信息增益越大的特徵具有更強的分類能力。

信息增益比

以信息增益作爲劃分訓練數據集的特徵，存在偏向於選擇取值較多的特徵的問題（某個特徵取值越多，劃分出來的節點越多，多，信息增益往往越大）。使用信息增益比可以對這一問題進行校正。

3 決策樹的生成

3.1 ID3算法

從根節點開始，對節點計算所有可能的特徵的信息增益，選擇信息增益最大的特徵作爲節點的特徵，由該特徵的不同取值建立子節點；再對子節點遞歸調用以上方法，構建決策樹；直到所有特徵的信息增益均很小或沒有特徵可以選擇爲止。最後得到一棵決策樹。

3.2 C4.5的生成算法

4 決策樹的剪枝

在剪枝中主要分爲：前剪枝和後剪枝。

前剪枝是指在生成決策樹的過程中，對樹的深度進行控制，防止生成過多的葉子節點。

後剪枝是指將訓練集分成兩個部分，一部分用來訓練決策樹模型（訓練數據），另一部分對生成的決策樹進行剪枝（驗證數據）。

決策樹的生成只考慮了通過提高信息增益對訓練數據進行更好的擬合，而決策樹剪枝通過優化損失函數還考慮了減小模型的複雜度。

5 CART算法

CART分類迴歸樹，既可以用於分類也可以用於迴歸。

CART算法由以下兩步組成：

1）決策樹生成：基於訓練數據集生成決策樹，生成的決策樹要儘量大；

2）決策樹剪枝：用驗證數據集對已生成的樹進行剪枝並選擇最優子樹，這時用損失函數最小作爲剪枝的標準。

5.1 CART生成

決策樹的生成是遞歸構建二叉決策樹的過程。迴歸樹用平方誤差最小化準則，分類樹用基尼指數最小化準則，進行特徵選擇。

1. 迴歸樹的生成

2. 分類樹的生成

5.2 CART剪枝

CART剪枝算法由兩步組成：

a.從生成算法產生的決策樹底端開始不斷剪枝，直到的根節點，形成一個子樹序列；

b.通過交叉驗證法在獨立的驗證數據集上對子樹序列進行測試，從中選擇最優子樹。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

首批！Zilliz 獲得亞馬遜雲科技生成式 AI 合作伙伴能力認證

Zilliz 正式宣佈通過亞馬遜雲科技生成式 AI 能力認證！這一認證不僅肯定了 Zilliz 在人工智能和非結構化數據領域的卓越能力，也標誌着 Zilliz 在推動 AI 技術創新和應用的道路上邁出了重要一步。亞馬遜雲科技生

2024-06-06 14:16:04

Opal 機器學習平臺：愛奇藝數智一體化實踐

01 綜述 Opal 是愛奇藝大數據團隊研發的機器學習平臺，包含特徵生產、樣本構建、模型訓練、模型部署在內的多環節 Bigdata + AI 開發服務，內置多種訓練鏡像、

愛奇藝技術產品團隊

2024-06-01 02:21:16

基於對比稀疏擾動技術的時間序列解釋框架 ContraLSP

開篇近日，由阿里雲計算平臺大數據基礎工程技術團隊主導，與南京大學、賓夕法尼亞州立大學、清華大學等高校合作，解釋時間序列預測模型的論文《Explaining Time Series via Contrastive and Locally

2024-06-01 00:25:50

兒童節變身小小音樂家*用ModelArts製作一張AIGC音樂專輯

本文分享自華爲雲社區《兒童節變身小小音樂家*用ModelArts製作一張AIGC音樂專輯》*作者* 華爲雲社區精選。兒童節*如何給小朋友準備一份特別的禮物* 這份AIGC音樂專輯製作攻略一定要收下一段文字靈感就能編織出一曲悠揚悅耳的旋

2024-05-31 11:04:39

金融反欺詐指南：車險欺詐爲何如此猖獗？

青島市人民檢察院在其官方微信公衆號上發佈的梁某保險詐騙案顯示，2020 年以來，某汽修廠負責人梁某、某汽車服務公司負責人孫某，與保險公司的趙某等人相互勾結，收購二手北汽等品牌新能源汽車，併爲這些車輛購買車損險。隨後，他們利用暴雨天氣，故意製

2024-05-30 00:16:51

還能報名！風靡硅谷開發者的 Unstructured Data Meetup 即將登陸中國！

“最硅谷”的 Unstructured Data Meetup 即將來襲！衆所周知，AI 三要素包括：算力、算法和數據。數據的價值愈發凸顯，而其中非結構化數據更是備受關注。IDC 預測，到 2025 年，全球數據總量中將有超過 80% 的

2024-05-29 02:18:59

AI安全志：英國AI騙保事件增加300%！

最近，英國《衛報》報道稱，一些騙子正在利用人工智能照片編輯軟件篡改照片，以進行保險欺詐活動。這一發現令保險公司震驚，因爲這可能導致汽車保險費用飆升至歷史最高水平。安聯保險公司表示，從2021年至2023年期間，利用應用程序篡

2024-05-28 00:15:50

文心大模型免費辣，動手搓點啥慶祝一下吧

5月21日下午，百度智能雲宣佈文心大模型的兩款主力模型ENIRE Speed、ENIRE Lite全面免費，即刻生效。這兩款大模型都是今年3月剛剛發佈的，均支持8K和128k上下文長度。可以說，這是百度最新的模型

2024-05-24 12:13:22

風控指南：國內車險欺詐呈現四大趨勢

2024年4月11日，國家金融監督管理總局官網發佈國家金融監督管理總局關於《反保險欺詐工作辦法（徵求意見稿）》公開徵求意見的公告。《徵求意見》共6章、37條，明確反保險欺詐工作目標是建立“監管引領、機構爲主、行業聯防、各方協同”四位一體的

2024-05-23 12:16:45

五款擴展組件齊發 —— Volcano、Keda、Crane-scheduler 等，邀你體驗

今年 3 月，KubeSphere 啓動了首屆擴展組件開發者訓練營，吸引了 60 名開發者報名。經過一個半月的密集培訓和實戰演練，這些開發者成功打造了五款創新的擴展組件，現已全部上架至 KubeSphere Marketplace，歡迎大家

2024-05-23 11:17:40

基於 Milvus + LlamaIndex 實現高級 RAG

隨着大語言模型（LLM）技術的發展，RAG（Retrieval Augmented Generation）技術得到了廣泛探討和研究，越來越多的高級 RAG 檢索方法也隨之被人發現，相對於普通的 RAG 檢索，高級 RAG 通過更深化的技術細

2024-05-22 21:25:18

站在岸上學不會游泳 | 算法校招生的高效成長總結

在這個由數據編織、由算法驅動的時代，AI大模型正成爲推動社會進步的重要力量。我們不僅是變革的見證者，更是推動者和塑造者。感謝零售UP技術人欄目的邀請，本文藉此機會回顧一下自己的算法之路上的一些故事和思考，希望能帶給讀者一些幫助。介紹自

2024-05-22 11:56:42

全球廠商之最，華爲17篇論文入選國際數據庫頂會ICDE

本文分享自華爲雲社區《全球廠商之最，華爲GaussDB&GeminiDB，17篇論文入選國際數據庫頂會ICDE》，作者：GaussDB 數據庫。 5月13-17日，國際數據庫頂級學術會議 ICDE 2024 於荷蘭烏得勒支舉行。華爲Gau

2024-05-22 10:58:13

Gen AI 連接非結構化數據，Unstructured Data Meetup 第二場官宣杭州！

定了！6 月 15 日，備受硅谷開發者喜愛的 Unstructured Data Meetup 第二場將在杭州舉辦！衆所周知，AI 三要素包括：算力、算法和數據。數據的價值愈發凸顯，而其中非結構化數據更是備受關注。IDC 預測，到 202

2024-05-20 21:25:07

探索未知：風靡硅谷開發者的 Unstructured Data Meetup 即將登陸中國

“最硅谷”的 Unstructured Data Meetup 即將來襲！衆所周知，AI 三要素包括：算力、算法和數據。數據的價值愈發凸顯，而其中非結構化數據更是備受關注。IDC 預測，到 2025 年，全球數據總量中將有超過

2024-05-15 21:26:01

24小時熱門文章

最新文章

最新評論文章