模型評估與選擇
2.1經驗誤差與過擬合
- 錯誤率(error rate):分類錯誤的樣本數佔樣本總數的比例。
E=a/m - 精度(accuracy):
1−a/m 即精度=1−錯誤率 - 誤差(error):學習器的實際預測輸出與樣本的真實輸出之間的差異。
- 訓練誤差(training error)/經驗誤差(empirical error):在訓練集上的誤差。
- 泛化誤差(generalization error):在新樣本上的誤差。
- 過擬合(overfitting):學習器把訓練樣本學的太好了,把訓練樣本自身的一些特點當作了所有潛在樣本都會具有的一般性質,這樣就會導致泛化能力下降。
- 欠擬合(underfitting):對訓練樣本的一般性質尚未學好。
2.2評估方法
通常,我們可通過實驗測試來對學習器的泛化誤差進行評估進而做出選擇。爲此需要使用一個測試集(testing set)來測試學習器對新樣本的判別能力,然後以測試集上的測試誤差(testing error)作爲泛化誤差的近似。
下面介紹幾種產生訓練集
2.2.1留出法(hold-out)
留出法直接將數據集
因爲數據劃分的不同,所以單次使用留出法得到的結果往往不夠穩定可靠,在使用留出法時,一般採用若干次隨機劃分、重複進行實驗後取平均值作爲留出法的評估結果。
通常將大約2/3~4/5的樣本用於訓練,剩餘的用於測試。
測試集小時,評估結果的方差大。訓練集小時,平局結果的偏差大。
2.2.2交叉驗證法(cross validation)
交叉驗證法先將數據集
留一法(Leave-One-Out LOO):此時
2.2.3自助法(bootstrapping)
使用留出法和交叉驗證法時,保留了一部分訓練樣本用於測試,訓練集小於
自助法直接以自助採樣爲基礎。給定m個樣本的數據集
自助法在數據集較小、難以有效劃分訓練/測試集時很有效,自助法產生的數據集改變餓了初始數據集的分佈,這會引入偏差。因此在初始數據量足夠多時,留出法和交叉驗證法更常用一些。