周志華機器學習課後習題解析【第二章】

作者 | 我是韓小琦

鏈接 | https://zhuanlan.zhihu.com/p/42435889

2.1 數據集包含 1000 個樣本，其中 500 個正例、 500 個反例，將其劃分爲包含 70% 樣本的訓練集和 30% 樣本的測試集用於留出法評估，估算有多少種劃分方式。

答：排列組合問題。

訓練/測試集的劃分要儘可能保存數據分佈一致

那麼訓練集中應該包括350個正例和350個反例，剩餘的作測試集，那麼劃分方式應該有種。

2.2 數據集包含100個樣本，其中正反例各一半，假定學習算法所產生的模型是將新樣本預測爲訓練樣本數較多的類別（訓練樣本數相同時進行隨機猜測），試給出用10折交叉驗證法和留一法分別對錯誤率進行評估所得的結果。

答：

10折交叉驗證：交叉驗證中每個子集數據分佈要儘可能保持一致，那麼本題中10次訓練中每次正反例各佔45，模型訓練結果隨機猜測，錯誤率期望爲50%。

留一法：若留出樣本爲正例，訓練集中則有50個反例和49個正例，模型預測爲反例；反之留出樣本爲反例，模型預測爲正例，錯誤率爲100%。

2.3 若學習器A的F1值比學習器B高，試析A的BEP值是否也比B高。

答：

說一下自己理解吧

先看看F1值的定義，

其中：

即查準率（Precision ），【預測爲正例且真實爲正例的數量】/【預測爲正例的數量】，說白了關心預測爲正樣本時的準確率；

即查全率（又稱召回率Recall），【預測爲正例且真實爲正例的數量】/【真實爲正例的數量】。F1值計算中對查準率和查全率都同等重視。

再看看BEP值

首先目前很多分類算法輸出的都是0-1之間的一個概率值，比如邏輯迴歸、xgboost等，分類時的做法是預定一個閾值（典型爲0.5），若對樣本的輸出大於此閾值則歸爲1類（即正例），那麼根據樣本的輸出值從大到小排序（下文簡稱爲“樣本的排序”），排在最前面的即可理解爲最有可能爲正例的樣本，而排在最後的是最不可能爲正例的樣本。從前往後，逐個將樣本預測爲正例（即把當前樣本的輸出值定於爲閾值，小於閾值的都爲反例），每次計算當前的查準率和查全率，即可得到查全率爲橫座標查準率爲縱座標上的一個點，在將所有點按順利連接後即可得到“P-R曲線”，而BEP（即Break-Event Point，平衡點）是在查全率=查準率時的取值。

P-R曲線

討論：

從定義上看，F1值是在閾值固定時，將所有樣本分類完成後，綜合查全率和查準率得出的值；而BEP值則是尋求一個閾值使得查全率和查準率相同的情況下得到的（此時BEP = 查全率 = 查準率）。

也就是說BEP值和“樣本的排序”緊密相關的，而和樣本的預測值大小無關，同樣的排序，即使將所有預測值同時乘以0.5，其BEP值也是相同的；但是對於F1值，所有樣本都將預測爲負例（假定閾值爲0.5時），此時F1值爲0。

回到題目本身，“若學習器A的F1值比學習器B高，則A的BEP值比B高”，那麼若能找到兩個學習器BEP值相同，而F1值不同，則題目命題就不成立了。那從上面的討論中已經有了答案了，想象一下學習器A對樣本輸出值均爲學習器B的兩倍，兩者BEP值是相同的，A的輸出在（0,1）之間，而B的輸出在（0,0.5）之間，此時B的 F1 值爲0，A的 F1 值是在0-1之間。所以原命題不成立。

ps.個人從直覺上BEP值和F1值是沒有明確關係的，在討論過程中拿“輸出值乘以0.5”爲例，事實上，想象一下，一串固定排序的點(模型的輸出概率值)，只在0-1之間同時前進或者後退（每個點前進步長可以不一樣，但是排序不變），其BEP值也不會發生變化，而F1值是不斷變化的。

2.4 試述真正例率（TPR）、假正例率（FPR）與查準率（P）、查全率（R）之間的聯繫。

混淆矩陣

查全率：

。

【預測爲正例且真實爲正例的數量】/【真實爲正例的數量】

查準率：

。

【預測爲正例且真實爲正例的數量】/【預測爲正例的數量】

真正例率（TPR）：同查全率

假正例率（FPR）：

。