西瓜書第二章:模型評估與選擇

訓練誤差(traning error):學習器在訓練集上的誤差,訓練誤差極小可能產生過擬合(overfitting)。

泛化誤差(generalization erro):學習器在新樣本上的誤差,泛化誤差極小可能產生欠擬合(underfitting)。

在機器學習的過程中會將數據分爲訓練集(training set)、驗證集(development set)和測試集(test set),其中訓練集用於訓練模型,驗證集用於評估測試的數據集,測試集是對最終的神經網絡做無偏估計。而一般來說我們需要保證訓練集和測試集的數據符合同一分佈。

留出法(hold-out):將D劃分爲兩個互斥的集合,其中一個作爲訓練集,另一個作爲測試集。

交叉驗證法(cross validation):將數據集D劃分爲k個大小相似的互斥子集,每個子集都儘可能數據分佈的一致性,每次用k-1個子集的並集作爲訓練集,餘下的作爲測試集,這樣可以得到k組訓練/測試集,從而可進行k詞訓練和測試,最終返回這k個測試結果的均值,這種方法也被稱爲“k折交叉驗證”(k-fold cross validation)。若D中有m個元素,且我們將數據集分爲m個子集,此時可得到交叉驗證法中的一個特例留一法(Leave-One-Out)

自助法(bootstrapping):給定包含m個樣本的數據集D,對其進行採樣產生數據集D':每次隨機從D中挑選一個拷貝放入D',重複m次可得到包含m個樣本的數據集D',每個樣本抽到的可能性爲1/m。,即在m次採樣中有36.8%的數據可能未被選擇,若將D'作爲訓練集,D\D'(\表示減法)作爲測試集,這樣的測試結果稱爲“包外估計”(out-of-bag estimate)

性能度量(performance measure):衡量模型泛化能力的評價標準,迴歸任務中常用均方誤差(mean squared error).

錯誤率:

 精度:


查準率(precision):找到正確樣本中實際爲正確的樣本在找到的正確樣本中的比例。

查全率(recall):找到的正確樣本中實際爲正確的樣本在所有正確樣本中的比例。

平衡點(break-even point):查準率=查全率的點,在該點預測結果與真實情況一致。

F1度量:,其中度量了查全率對查準率的重要性,大於1時查全率影響更大,小於1時查準率影響更大。

ROC(受試者工作特性)曲線:根據學習器的預測結果對樣例進行排序,按此順序逐個把樣本作爲正例進行預測,以FP爲橫軸,以TP爲縱軸繪製的曲線。首先將TP和FP初始化爲0,一次對每個樣例劃分正例,設前一個標記點座標爲(x,y),若爲TP,則對應標記點的座標爲;若爲FP,則對應標記點的座標爲.


AUC(area under ROC curve):ROC曲線下的面積。

假設檢驗(hypothesis test):根據問題的需要對所研究的總體做某種假設H,選取合適的統計量,有實測的樣本計算出 統計量的值,並根據預先給定的顯著性水平進行檢驗,做出拒絕或接受假設H的判斷。假設是對學習器泛化錯誤率分佈的某種判斷或猜想。

方差(使用樣本數相同的不同訓練集產生的差值):

噪聲

偏差(期望輸出與真實標記之間的差值):

泛化誤差

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章