機器學習-數值預測的樹

樹的長處有一個就是在不需預處理的前提下處理很多的類型。就是不需要常規化,標準化數據的特徵。

區分regression tree跟model tree.


1.Regression Tree

數值樹的建立的基本原理跟類型樹的建立過程是相同的。在拆分方式上,數值型的有其方法。數值型的拆分標準是standard deviation reduction(SDR)。定義如下:

                                |Ti|

SDR = sd(T) -  Σ —— * sd(Ti) 

          |T|


|T| - T集合裏數目


衡量預測性能的方法:

a.可以計算輸出向量跟測試向量的相關性 cor。 相關度越高越好。這種方法是衡量相關強度(how strong).

b. 另外一種是衡量相差多遠(how far). 這種方法計算預測值與測試值之間平均相差多上。 這個度量叫做mean aboslute error(MAE).

                1         n

MAE =  ——    Σ  |ei|

     n  i=1 


ei 就是預測值與真實值的差。


2。Model Tree

Model Tree是在Regression Tree 的基礎上把葉子節點(leaf node) 用線迴歸模型來替換。這樣通常可以帶來更準確的預測結果。

較爲先進的算法是M5' 算法(M5-prime)



發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章