《機器學習（周志華）》Chapter2 模型評估與選擇

這一章幾乎把整個機器學習的工作流程都介紹了一遍，能讓讀者瞭解到如何一步步的搭建一個機器學習項目。下面先把整個流程大致的梳理一遍：

一、評估方法：

我們在拿到數據之後首先要處理的就是將數據劃分爲訓練集和測試集，西瓜書提供了三種方法，分別是：留出法、交叉驗證法和自助法。

1、留出法：將數據集劃分爲兩個互斥的集合，將70%劃分爲訓練集，30%劃分爲測試集。如果我們希望評估的是整個訓練集的模型性能，而留出法將整體數據集劃分爲訓練集合測試集，若訓練集包含絕大多數樣本，則訓練出的模型可能更接近整體數據的模型，而測試集符合的樣本比較少，評估的結果可能就不穩定準確；若測試集多包涵一些樣本，則訓練集合整體樣本差別就更大，訓練出的模型與整體訓練處的模型相差較大，從而降低了評估結果的保真性。

2、交叉驗證法：將數據集劃分成k個大小相同的互斥子集，將k-1個子集的並集作爲訓練集，剩餘的一個子集作爲測試集，最後求k組訓練測試集的均值。

3、自助法：如果我們希望評估的是整體數據集，用留出法或交叉驗證法，都會導致訓練集變小，爲解決這個問題就引入了自助法。若有m個樣本的數據集，從數據集中採樣一個樣本放入另外一個集合，再將該樣本放回原數據集，重複m次，就採用到了另外一個大小也爲m的集合，將這個集合作爲訓練集，原數據集除開新集合剩餘的數據作爲訓練集，稱爲自助法。自助法在小數據集和集成學習上有很大的好處，但是改變了原數據集的分佈，會引入估計偏差，所以在數據量足夠時，留出法和交叉驗證法還是常用一些。

二、調參與最終模型

三、性能度量

模型訓練完之後最終要應用到現實任務上，這就需要知道訓練好的模型的泛化能力如何，這就是性能度量。

1、錯誤率與精度

錯誤率：

精度：

或者：

2、查準率、查全率與F1：

不同重視程度下的F1：

其β>0，度量了查全率對查準率的相對重要性。β=1爲標準的F1；β>1查全率影響更大；β<1查準率影響更大。

對多個查準率、查全率求平均稱爲宏查準率、宏查全率、宏F1：

對TP、FP、TN、FN求平均值，再計算稱爲微查準率、微查全率和微F1:

3、ROC與AUC

TPR真正例率、FPR假正例率

繪圖過程：給定m+個正例和m-個反例，根據學習器預測結果對樣例排序，若將分類閥值設爲最大，即所有樣本均爲反例，則TP和FP均爲零，即得座標（0,0），若分類閥值設爲最小，即所有樣本均爲正例，則FN和TN均爲零，即得座標（1,1）。將分例閥值從最大值依次減小爲每個樣本大小，即依次將每個樣本劃分爲正例，設前一個座標爲（x,y），若當前樣本預測爲真正例，因爲TP+FN始終等於m+，所以增加一個真正例即縱座標增加1/m+，則對應座標爲(x, y+1/m+),同理若爲假正例，對應座標爲（x+1/m-, y），然後用線段將相鄰點依次相連就形成了ROC曲線

AUC爲ROC曲線下的面積，AUC越大性能越好。

排序損失定義爲：

正例的預測值小於反例，記一個罰分，正例等於反例記0.5個罰分。

4、代價敏感錯誤率與代價曲線

解決不同類型的錯誤造成不同的後果，衍生出了代價敏感錯誤率。

代價敏感錯誤率爲：

cost01大於cost10,0類判別爲1類所造成的損失更大；

正例概率代價爲：

其中p是樣例爲正例的概率；歸一化代價：

四、比較檢驗

先使用某種實驗評估方法測得學習器的某個性能度量結果，然後對結果進行比較。但是這個比較不是簡單的比較過程，第一、我們希望比較的是泛化性能，泛化性能與測試集性能未必相等；第二、測試集的性能與選擇有關；第三、很多機器學習算法本身有一定的隨機性。

1、假設驗證

簡單的介紹一下假設驗證，以拋硬幣爲例，如果我們想通過硬幣來進行賭博，但我們不知道硬幣是否是正常的，也就是說不知道對方有沒有在硬幣上做手腳讓自己獲勝的概率大一些，但是對方又不答應將硬幣給我們檢查，該如何判斷硬幣是否正常呢？我們可以假設硬幣沒有問題，然後進行試拋，如果拋一次是正面，概率爲0.5，不足以證明硬幣有無問題，拋兩次都是正面，概率爲0.25，也不足以說明；但是如果拋10次，全部都爲正面，概率爲0.5的10次方，我們就有一定的把我說這個硬幣是有問題的。

首先根據測試錯誤率估推出泛化錯誤率的分佈。泛化錯誤率爲ε的學習器被測得測試錯誤率爲ε的概率：

對進行假設驗證，1-α爲置信度

若測試錯誤率小於臨界錯誤率，則得出結論：在α顯著度下，假設成立，即能以1-α的置信度認爲，學習器的泛化錯誤率不大於ε0

2、t檢驗

如果有多個測試錯誤率，則可以用t檢驗，平均測試錯誤率和方差爲：

對假設和顯著度α可以計算最大錯誤率，即臨界值。在臨界範圍內假設成立，否則假設不成立。

交叉t檢驗：

5X2交叉驗證：

3、McNemar檢驗

4、Friedman檢驗與Nemenyi後續檢驗

若在同一組數據集上對多個算法進行比較，則可使用該檢驗

五、偏差與方差：

學習算法的期望預測爲：

方差：

噪聲：

偏差：

《機器學習（周志華）》Chapter2 模型評估與選擇課後習題答案

參考網址：

假設檢驗
https://www.zhihu.com/question/23149768/answer/282842210
t檢驗
https://www.zhihu.com/question/30753175?sort=created

置信區間
https://www.zhihu.com/question/26419030/answer/274472266
95%置信區間
https://www.zhihu.com/question/23149768/answer/282842210
正態分佈和t分佈：
https://wenku.baidu.com/view/638df78c84868762caaed5fc.html