分類樹和迴歸樹

原創

qqliuzihan

2018-08-22 12:25

分類樹
以C4.5分類樹爲例，C4.5分類樹在每次分枝時，是窮舉每一個feature的每一個閾值，找到使得按照feature<=閾值，和feature>閾值分成的兩個分枝的熵最大的閾值(熵最大的概念可理解成儘可能每個分枝的男女比例都遠離1:1)，按照該標準分枝得到兩個新節點，用同樣方法繼續分枝直到所有人都被分入性別唯一的葉子節點，或達到預設的終止條件，若最終葉子節點中的性別不唯一，則以多數人的性別作爲該葉子節點的性別。

總結：分類樹使用信息增益或增益比率來劃分節點；每個節點樣本的類別情況投票決定測試樣本的類別。

2. 迴歸樹

迴歸樹總體流程也是類似，區別在於，迴歸樹的每個節點（不一定是葉子節點）都會得一個預測值，以年齡爲例，該預測值等於屬於這個節點的所有人年齡的平均值。分枝時窮舉每一個feature的每個閾值找最好的分割點，但衡量最好的標準不再是最大熵，而是最小化均方差即(每個人的年齡-預測年齡)^2 的總和 / N。也就是被預測出錯的人數越多，錯的越離譜，均方差就越大，通過最小化均方差能夠找到最可靠的分枝依據。分枝直到每個葉子節點上人的年齡都唯一或者達到預設的終止條件(如葉子個數上限)，若最終葉子節點上人的年齡不唯一，則以該節點上所有人的平均年齡做爲該葉子節點的預測年齡。

總結：迴歸樹使用最大均方差劃分節點；每個節點樣本的均值作爲測試樣本的迴歸預測值。

轉自http://blog.csdn.net/puqutogether/article/details/44593647

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

分類樹和迴歸樹

《Python進階》學習筆記

Leetcode 3161. 物塊放置查詢

leetcode 60 排列序列

一個docker容器暴露多個端口

微服務實踐之使用 Visual Studio 2022 調試Dapr 應用程序

wpf附加屬性理解 WPF附加屬性

CNN卷積層相關計算公式

信息熵

協方差矩陣的意義

dropout和L1，L2正則化的理解筆記

fine-tuning:利用已有模型訓練其他數據集

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結