第二章 模型的評估與選擇

板藍根的板藍(qq:1764681289)

郵箱:[email protected]
第一節 經驗誤差與過擬合
1、幾個名詞解釋

損失函數

風險函數

訓練誤差

測試誤差

泛化誤差

經驗風險

經驗風險最小化(ERM)

過擬合(overfitting)

過擬合 :當學習器把樣本訓練的太好時,可能已經把訓練樣本的自身特點當成了所有樣本的一般性質,這樣就會導致泛化能力下降。過擬合是機器學習面臨的關鍵障礙。周志華先生認爲過擬合是無法避免的,我們只能減弱它帶來的影響。
第二節 評估方法

1、留出法

將樣本分成兩個互斥的集合,一部分是訓練集,另一部分是測試集,比例一般是2:1到4:1。但是單次留出法得到的結果往往不穩定不可靠,需要進行多次隨機劃分進行實驗取平均值。

2、交叉驗證法

將樣本分爲k的不同的集合,取其中k-1個集合作爲訓練集,剩餘的一個作爲測試集,然後再取另k-1個集合做訓練集,依次做k次實驗,取他們的平均值作爲結果,也成爲k折交叉驗證。k折交叉驗證通常需要隨機劃分p次,成爲p次k折交叉驗證。

3、自助法

從樣本集D有放回的抽取m個樣本,得到訓練集D',這樣一個樣本在m次抽取中均不會被抽到的概率爲(1-1/m)^m ,他的極限是1/e,大約是0.368,這就是說大約有36.8%的樣本在這次取樣中不會出現在訓練集D'中。我們取D'作爲訓練集,D/D'作爲測試集。

自助法在數據集較少,難以劃分訓練集 和測試集時很有用,然而,這種方法卻會改變樣本集的分佈,會帶來一定的誤差。因此,當數據集充足時,留出法和交叉驗證法比較常用。
第三節 性能度量

錯誤率與精度

錯誤率是分類錯誤的樣本數佔樣本總數的比例,精度是分類正確的樣本數佔樣本總數的比例

查準率和查全率

查準率與查全率是一對矛盾的指標,可以做出兩者的關係圖P-R圖

可以看出,A,B均完全在C的上面,這意味着他們的性能優於C,而A和B有交叉,此時難以一般性的說明孰優孰劣,因此人們設計了一些綜合考察查準率和查全率的性能度量。

我們有用y=x這條線和曲線相交,交點爲平衡點(break-even point,簡稱BEP),用這個點判斷哪個性能比較好,不過這個方法過於簡單,這時我們便考慮用其他的指標考察。

常用的有F1度量,F1是根據P和R的調和平均定義的

F1還有一個標準形式,Fβ,定義爲,β>0。

當β∈(0,1)時,側重於查準率

當β∈(1,+∞)時,側重於查全率

當β=1時,即爲我們前面提到的F1度量

真正例率(TPR)和假正例率(FPR)

TPR := TP/(TP+FN)

FPR:=FP/(FP+TN)

ROC & AUC 圖

繪製圖2.4(b)的步驟如下:

給m+個正例和m-個反例,讓學習器進行處理給出預測得分,按照得分排序,將分類閾值設置成最大,此時均爲反例,真正例率和假正例率都是0,座標在(0,0)。然後把第一個的預測值作爲閾值,則只有第一個例子被預測爲正例,若它是正例,則真正例的個數加一,則真正例率變成0+1/m+,y座標向上移動1/m+,(遍歷一遍所有的例子總共有m+個正例,y座標要向上移動m+/m+ 就是1個單位),若它是反例,則相同,不過是x軸向右移。

正例的得分越高,就會越往前排,這樣假如正例和反例被恰好分成前後兩部分,我們就可以選擇一個閾值,從而完全正確的對樣例進行預測,從圖形上直觀的看就是先沿着y軸直接走到(0,1),再水平向右移動到達(1,1),這樣一來,圖形的面積就是1,這裏還和後面的排序損失(loss) L(rank)有關,一會再說。我們也可以知道,若一個學習器的曲線完全包含另一個學習器的曲線,則前者的泛化能力比較強。如果兩條曲線發生交叉,則可以由面積,即AUC(AREA UNDER ROC CURVE),

定義排序損失爲

圖中||爲示性函數,真則爲一,假則爲零

此函數對應的是ROC之上的面積,有

代價敏感錯誤率與代價曲線

代價敏感錯誤率,是由於兩者錯誤帶來的後果不一樣,正確的答案判爲錯誤,錯誤的答案判爲正確,在不同的情況下代價是不同的。我們將代價敏感錯誤率定義爲,

至於後面的圖2.5及其解釋,沒有搞明白是什麼意思以及它的意義,先擱置。
第四節 比較檢驗 偏差與方差

這一節這要就是運用了數理統計的知識,比如置信區間,置信度,上分位數之類的,還有一些t分佈,卡方分佈

學習算法的期望預測

偏差

方差

噪聲

泛化誤差=偏差+方差+噪聲

需要了解的是 偏差與方差是有衝突的,稱爲偏差-方差窘境。

注:本文的圖片均來自李航《統計學習方法》和周志華《機器學習》

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章