【機器學習筆記】Decision Trees（決策樹）

原創

至肝主义圈毛君

2020-06-25 11:26

內容概述

通俗地講，決策樹提出一個問題，然後根據回答者的答案將回答者區分。

決策樹圖中，最上面的只有指出箭頭的結點稱爲“根結點”，中間既有指入又有指出的結點稱爲“內部結點”，下方只有指入箭頭的綠色結點稱爲“葉結點”。

那麼決策樹應該如何建立呢？

在下面的例子中，我們打算通過Chest Pain、Good Blood Circulation和Blocked Arteries來預測一名患者是否得心臟疾病。

因此，我們需要在三個特徵中選擇一個作爲根結點。

根結點該如何選擇？

選擇與心臟疾病最相關的特徵。

依次對比每個特徵列與結果列的每一行數值，作出每個特徵的樹狀圖。

比如，某個患者得了Chest Pain，那我們就沿True路徑往下走，如果該患者還得了心臟疾病，那麼葉結點中的Yes+1，否則No+1。如此類推.....

作出每個特徵的樹狀圖後，通過算法計算出每個特徵與心臟疾病的相關性。

注意：因爲沒有一個特徵樹的葉結點是百分百Yes或者No，所以它們都被認爲是不純的（impure）。

我們將使用“Gini（基尼）”來比較它們誰更不純。

（說法有點怪怪的///）

1. 通過Figure 1中的算式來算出兩個葉結點的Gini不純係數；

2. 通過Figure 2中的算式來算出根結點（即某個特徵）的Gini不純係數（不純係數越低越好）；

這種算法在後面還會用到。

Figure 1：

Figure 2：

將根結點確定下來後，確定後續結點同樣需要使用Gini不純係數，並確保每個結點的不純係數取最小值。

上述例子中只使用了布爾值（True or Flase），增加數值後又該如何建立決策樹呢？

第一步：對數值進行排序；

第二步：計算每個相鄰數值間的平均值；

第三步：計算每個平均值的Gini不純係數；

增加選項值後，應該如何計算它的Gini不純係數？

——計算所有選項組合的不純係數。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

一文搞懂DevOps、DataOps、MLOps、AIOps：所有“Ops”的比較

引言近年來，"Ops"一詞在 IT 運維領域的使用迅速增加。IT 運維正在向自動化過程轉變，以改善客戶交付。傳統的應用程序開發採用 DevOps 實施持續集成（CI）和持續部署（CD）。但對於數據密集型的機器學習和人工智能（AI）應用，精

2024-06-07 14:08:38

首批！Zilliz 獲得亞馬遜雲科技生成式 AI 合作伙伴能力認證

Zilliz 正式宣佈通過亞馬遜雲科技生成式 AI 能力認證！這一認證不僅肯定了 Zilliz 在人工智能和非結構化數據領域的卓越能力，也標誌着 Zilliz 在推動 AI 技術創新和應用的道路上邁出了重要一步。亞馬遜雲科技生

2024-06-06 14:16:04

Opal 機器學習平臺：愛奇藝數智一體化實踐

01 綜述 Opal 是愛奇藝大數據團隊研發的機器學習平臺，包含特徵生產、樣本構建、模型訓練、模型部署在內的多環節 Bigdata + AI 開發服務，內置多種訓練鏡像、

愛奇藝技術產品團隊

2024-06-01 02:21:16

基於對比稀疏擾動技術的時間序列解釋框架 ContraLSP

開篇近日，由阿里雲計算平臺大數據基礎工程技術團隊主導，與南京大學、賓夕法尼亞州立大學、清華大學等高校合作，解釋時間序列預測模型的論文《Explaining Time Series via Contrastive and Locally

2024-06-01 00:25:50

兒童節變身小小音樂家*用ModelArts製作一張AIGC音樂專輯

本文分享自華爲雲社區《兒童節變身小小音樂家*用ModelArts製作一張AIGC音樂專輯》*作者* 華爲雲社區精選。兒童節*如何給小朋友準備一份特別的禮物* 這份AIGC音樂專輯製作攻略一定要收下一段文字靈感就能編織出一曲悠揚悅耳的旋

2024-05-31 11:04:39

金融反欺詐指南：車險欺詐爲何如此猖獗？

青島市人民檢察院在其官方微信公衆號上發佈的梁某保險詐騙案顯示，2020 年以來，某汽修廠負責人梁某、某汽車服務公司負責人孫某，與保險公司的趙某等人相互勾結，收購二手北汽等品牌新能源汽車，併爲這些車輛購買車損險。隨後，他們利用暴雨天氣，故意製

2024-05-30 00:16:51

還能報名！風靡硅谷開發者的 Unstructured Data Meetup 即將登陸中國！

“最硅谷”的 Unstructured Data Meetup 即將來襲！衆所周知，AI 三要素包括：算力、算法和數據。數據的價值愈發凸顯，而其中非結構化數據更是備受關注。IDC 預測，到 2025 年，全球數據總量中將有超過 80% 的

2024-05-29 02:18:59

AI安全志：英國AI騙保事件增加300%！

最近，英國《衛報》報道稱，一些騙子正在利用人工智能照片編輯軟件篡改照片，以進行保險欺詐活動。這一發現令保險公司震驚，因爲這可能導致汽車保險費用飆升至歷史最高水平。安聯保險公司表示，從2021年至2023年期間，利用應用程序篡

2024-05-28 00:15:50

文心大模型免費辣，動手搓點啥慶祝一下吧

5月21日下午，百度智能雲宣佈文心大模型的兩款主力模型ENIRE Speed、ENIRE Lite全面免費，即刻生效。這兩款大模型都是今年3月剛剛發佈的，均支持8K和128k上下文長度。可以說，這是百度最新的模型

2024-05-24 12:13:22

風控指南：國內車險欺詐呈現四大趨勢

2024年4月11日，國家金融監督管理總局官網發佈國家金融監督管理總局關於《反保險欺詐工作辦法（徵求意見稿）》公開徵求意見的公告。《徵求意見》共6章、37條，明確反保險欺詐工作目標是建立“監管引領、機構爲主、行業聯防、各方協同”四位一體的

2024-05-23 12:16:45

五款擴展組件齊發 —— Volcano、Keda、Crane-scheduler 等，邀你體驗

今年 3 月，KubeSphere 啓動了首屆擴展組件開發者訓練營，吸引了 60 名開發者報名。經過一個半月的密集培訓和實戰演練，這些開發者成功打造了五款創新的擴展組件，現已全部上架至 KubeSphere Marketplace，歡迎大家

2024-05-23 11:17:40

基於 Milvus + LlamaIndex 實現高級 RAG

隨着大語言模型（LLM）技術的發展，RAG（Retrieval Augmented Generation）技術得到了廣泛探討和研究，越來越多的高級 RAG 檢索方法也隨之被人發現，相對於普通的 RAG 檢索，高級 RAG 通過更深化的技術細

2024-05-22 21:25:18

站在岸上學不會游泳 | 算法校招生的高效成長總結

在這個由數據編織、由算法驅動的時代，AI大模型正成爲推動社會進步的重要力量。我們不僅是變革的見證者，更是推動者和塑造者。感謝零售UP技術人欄目的邀請，本文藉此機會回顧一下自己的算法之路上的一些故事和思考，希望能帶給讀者一些幫助。介紹自

2024-05-22 11:56:42

全球廠商之最，華爲17篇論文入選國際數據庫頂會ICDE

本文分享自華爲雲社區《全球廠商之最，華爲GaussDB&GeminiDB，17篇論文入選國際數據庫頂會ICDE》，作者：GaussDB 數據庫。 5月13-17日，國際數據庫頂級學術會議 ICDE 2024 於荷蘭烏得勒支舉行。華爲Gau

2024-05-22 10:58:13

爲何都在談低代碼？快速瞭解低代碼技術在 ITSM 中的應用

直達原文：【ITSM系列】爲何都在談低代碼？快速瞭解低代碼技術在ITSM中的應用還記得早期的 Dreamweaver 嗎？爲了提高網頁的開發效率，Dreamweaver 提供了可視化拖拽的能力來生成網頁代碼。可見，低代碼、無代碼的探索和

2024-06-04 02:44:11

24小時熱門文章

最新文章

最新評論文章