樹的長處有一個就是在不需預處理的前提下處理很多的類型。就是不需要常規化,標準化數據的特徵。
區分regression tree跟model tree.
1.Regression Tree
數值樹的建立的基本原理跟類型樹的建立過程是相同的。在拆分方式上,數值型的有其方法。數值型的拆分標準是standard deviation reduction(SDR)。定義如下:
|Ti|
SDR = sd(T) - Σ —— * sd(Ti)
|T|
|T| - T集合裏數目
衡量預測性能的方法:
a.可以計算輸出向量跟測試向量的相關性 cor。 相關度越高越好。這種方法是衡量相關強度(how strong).
b. 另外一種是衡量相差多遠(how far). 這種方法計算預測值與測試值之間平均相差多上。 這個度量叫做mean aboslute error(MAE).
1 n
MAE = —— Σ |ei|
n i=1
ei 就是預測值與真實值的差。
2。Model Tree
Model Tree是在Regression Tree 的基礎上把葉子節點(leaf node) 用線迴歸模型來替換。這樣通常可以帶來更準確的預測結果。
較爲先進的算法是M5' 算法(M5-prime)