交叉驗證方法思想簡介

交叉驗證方法思想簡介  


      以下簡稱交叉驗證(Cross Validation)爲CV.CV是用來驗證分類器的性能一種統計分析方法,基本思想是把在某種意義下將原始數據(dataset)進行分組,一部分做爲訓練集(train set),另一部分做爲驗證集(validation set),首先用訓練集對分類器進行訓練,在利用驗證集來測試訓練得到的模型(model),以此來做爲評價分類器的性能指標.常見CV的方法如下:


1).Hold-Out Method

       將原始數據隨機分爲兩組,一組做爲訓練集,一組做爲驗證集,利用訓練集訓練分類器,然後利用驗證集驗證模型,記錄最後的分類準確率爲此Hold-OutMethod下分類器的性能指標.此種方法的好處的處理簡單,只需隨機把原始數據分爲兩組即可,其實嚴格意義來說Hold-Out Method並不能算是CV,因爲這種方法沒有達到交叉的思想,由於是隨機的將原始數據分組,所以最後驗證集分類準確率的高低與原始數據的分組有很大的關係,所以這種方法得到的結果其實並不具有說服性.


2).K-fold Cross Validation(記爲K-CV)

      將原始數據分成K組(一般是均分),將每個子集數據分別做一次驗證集,其餘的K-1組子集數據作爲訓練集,這樣會得到K個模型,用這K個模型最終的驗證集的分類準確率的平均數作爲此K-CV下分類器的性能指標.K一般大於等於2,實際操作時一般從3開始取,只有在原始數據集合數據量小的時候纔會嘗試取2.K-CV可以有效的避免過學習以及欠學習狀態的發生,最後得到的結果也比較具有說服性.


3).Leave-One-Out Cross Validation(記爲LOO-CV)

      如果設原始數據有N個樣本,那麼LOO-CV就是N-CV,即每個樣本單獨作爲驗證集,其餘的N-1個樣本作爲訓練集,所以LOO-CV會得到N個模型,用這N個模型最終的驗證集的分類準確率的平均數作爲此下LOO-CV分類器的性能指標.相比於前面的K-CV,LOO-CV有兩個明顯的優點:

     ① 每一回閤中幾乎所有的樣本皆用於訓練模型,因此最接近原始樣本的分佈,這樣評估所得的結果比較可靠。

     ② 實驗過程中沒有隨機因素會影響實驗數據,確保實驗過程是可以被複制的。

     但LOO-CV的缺點則是計算成本高,因爲需要建立的模型數量與原始數據樣本數量相同,當原始數據樣本數量相當多時,LOO-CV在實作上便有困難幾乎就是不顯示,除非每次訓練分類器得到模型的速度很快,或是可以用並行化計算減少計算所需的時間.


發佈了53 篇原創文章 · 獲贊 6 · 訪問量 14萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章