西瓜書之決策樹的一生

原創

2020-07-03 18:22

最近看西瓜書的決策樹這一章，給我看懵了。感覺得自己動手一步一步計算才能理解具體怎麼構造的，然後才能寫程序。就以書上的西瓜集2.0爲例：

1.先搞清兩個概念：信息熵和信息增益

信息熵越小，純度越高。計算公式如下：

條件熵：

信息增益越大，意味着獲得的“純屬提升”越大。因此我們使用信息增益來進行決策樹的劃分屬性選擇。

計算過程如下：

插一句題外話，由上圖可見手機鏡頭會讓原圖發生凹凸變化，所以鏡子裏的我纔是真實的哈哈哈哈哈，其實是因爲鏡子裏的我比相機好看>0<~~~

但是信息增益存在的問題，它對數目較多的屬性有所偏好。爲了減少這種偏好可能帶來的不利影響，
引入增益率的概念：

增益率則是對可取數目較少的屬性有偏好，所以先從候選劃分屬性中找出信息增益高於平均水平的屬性，再從中選擇增益率最高的。

2.接下來進行剪枝處理
目的：對付過擬合

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

【穩定性】從項目風險管理角度探討系統穩定性

背景：在軟件開發過程中，系統穩定性是一個重要的考量因素。它直接影響到軟件的性能、可靠性和用戶體驗。然而，由於各種原因，如需求迭代、架構升級、配置變更、人力變動、系統不熟悉等，系統穩定性可能會受到影響。一直想寫一篇風險管理的文章，想着

2024-03-23 00:58:13

愛奇藝智能內容中臺｜無人值守的應用與實踐

本文爲愛奇藝智能內容中臺系列稿件的第一彈，接下來我們還會陸續爲大家帶來愛奇藝在智能內容生產、運營上的一系列探索，敬請期待。無人值守系統是愛奇藝內容中臺的一個重要智能化組件。首先

2021-12-25 21:18:30

XGBoost和LightGBM

這兩個模型都屬於集成學習中的樹模型，每個機器學習模型都有它特定的應用場景，不同的數據集適合用到的模型是不一樣的。結構化數據、非結構化數據結構化數據：規整，維度固定；一般我們的表格數據都屬於結構化數據。非結構化數據：非規整，維度不固定

2021-10-04 09:18:25

數據挖掘的十大經典算法，總算是講清楚了，想提升自己的趕快收藏

一個優秀的數據分析師，除了要掌握基本的統計學、數據分析思維、數據分析工具之外，還需要掌握基本的數據挖掘思想，幫助我們挖掘出有價值的數據，這也是數據分析專家和一般數據分析師的差距所在。國際權威的學術組織the IEEE Inter

2021-09-22 21:31:39

機器學習算法整理(四)

接機器學習算法整理(三) 決策樹什麼是決策樹比方說我們在招聘一個機器學習算法工程師的時候，會依照這樣的流程進行逐層的評選，從而達到一個樹形結構的決策過程。而在這棵樹中，它的深度爲3.最多通過3次判斷，就能將我們的數據進行一個相應的

2021-09-19 09:19:09

音視頻技術開發週刊 | 212

每週一期，縱覽音視頻技術領域的乾貨。新聞投稿：[email protected]。許路平：Gvoice千萬在語音輸入的那些事 GVoice爲騰訊旗下的主流遊戲提供低延遲語音通話服務，其

2021-09-13 21:08:55

如何選擇機器學習模型？

↑↑↑點擊上方藍字，回覆資料，10個G的驚喜作者 | Santiago Valdarrama 譯者 | Sambodhi 策劃 | 劉燕本文最初發表於 Towards Data Science 博客，經原作者 S

機器學習算法與Python實戰

2021-08-30 21:14:11

【機器學習】Bagging思想！

↑↑↑點擊上方藍字，回覆資料，10個G的驚喜作者：小偶，來源：偶數科技我們在生活中做出的許多決定都是基於其他人的意見，而通常情況下由一羣人做出的決策比由該羣體中的任何一個成員做出的決策會產生更好的結果，這被稱爲羣體的智

機器學習算法與Python實戰

2021-08-09 21:14:25

統計學中數據分析方法大全！

來源：數據派THU

2021-08-02 21:13:39

淺談樹模型與集成學習-從決策樹到GBDT

引言神經網絡模型，特別是深度神經網絡模型，自AlexNet在Imagenet Challenge 2012上的一鳴驚人，無疑是Machine Learning Research上最靚的仔，各種進展和突破層出不窮，科學家工程師人人都愛它

2021-07-29 21:19:56

利用AI檢測IoT惡意流量

#前言目前大量物聯網設備及雲服務端直接暴露於互聯網，這些設備和雲服務端存在的漏洞（如：心臟滴血、破殼等漏洞）一旦被利用，可導致設備被控、用戶隱私泄露、雲服務端數據被竊取等安全風險，甚至會對基礎通信網絡造成嚴重影響。爲了促進物聯網領域的安全

2021-07-29 21:11:04

統計學中數據分析方法彙總！

↑↑↑點擊上方藍字，回覆資料，10個G的驚喜來源：數據派THU，編輯：數據Seminar

機器學習算法與Python實戰

2021-07-28 21:14:19

運維五一不加班，從一套On-Call響應機制開始！

互聯網技術的發展，離不開運維支撐工作，沒有零 BUG 的程序，沒有不出問題的系統，問題故障不可怕，可怕的是沒能有序的處理故障。尤其對於有數字化服務需要始終在線的業務團隊，一個流暢的應用服務增加了對技術團隊的要求，要求他們隨時準備提供響應。而

2021-05-07 21:12:02

如何從 0 到 1 構建埋點體系

本文根據資深數據產品經理陳家崑《從 0 到 1 埋點體系指南》的分享內容整理。主要內容如下： · 首次開荒指南 · 埋點體系迭代指南 · 體系落地指南 · 數據埋點實操案例一、開荒所謂開荒，指的是初次接觸埋點或神策的階段。 1.定

2021-04-01 21:31:15

數據分析入門必知：機器學習最通俗的解釋？

有人經常會把數據分析與機器學習給搞混掉，機器學習這個主題已經很普遍了，每個人都在談論它，但很少有人能夠透徹地瞭解它，今天老李給大家分享一下機器學習的概念。數據分析和機器學習如果你認爲大數據僅僅是關於SQL語句查詢和海量的數據的話，那麼

2021-03-22 21:37:16

24小時熱門文章

最新文章

最新評論文章