分類算法的評估方法

幾個常用術語

	1) True positives(TP):  被正確地劃分爲正例的個數,即實際爲正例且被分類器劃分爲正例的實例數;
	2) False positives(FP): 被錯誤地劃分爲正例的個數,即實際爲負例但被分類器劃分爲正例的實例數;
 	3) False negatives(FN):被錯誤地劃分爲負例的個數,即實際爲正例但被分類器劃分爲負例的實例數;
  	4) True negatives(TN): 被正確地劃分爲負例的個數,即實際爲負例且被分類器劃分爲負例的實例數。 

常用術語

  1. 正確率(accuracy)
    正確率是我們最常見的評價指標,accuracy = (TP+TN)/(P+N),正確率是被分對的樣本數在所有樣本數中的佔比,通常來說,正確率越高,分類器越好。
  2. 錯誤率(error rate)
    錯誤率則與正確率相反,描述被分類器錯分的比例,error rate = (FP+FN)/(P+N),對某一個實例來說,分對與分錯是互斥事件,所以accuracy =1 - error rate。
  3. 靈敏度(sensitivity)
    sensitivity = TP/P,表示的是所有正例中被分對的比例,衡量了分類器對正例的識別能力。
  4. 特異性(specificity)
    specificity = TN/N,表示的是所有負例中被分對的比例,衡量了分類器對負例的識別能力。
  5. 精度(precision)
    precision=TP/(TP+FP),精度是精確性的度量,表示被分爲正例的示例中實際爲正例的比例。
  6. 召回率(recall)
    召回率是覆蓋面的度量,度量有多個正例被分爲正例,recall=TP/(TP+FN)=TP/P=sensitivity,可以看到召回率與靈敏度是一樣的。
  7. 其他評價指標
    計算速度:分類器訓練和預測需要的時間;
    魯棒性:處理缺失值和異常值的能力;
    可擴展性:處理大數據集的能力;
    可解釋性:分類器的預測標準的可理解性,像決策樹產生的規則就是很容易理解的,而神經網絡的一堆參數就不好理解,我們只好把它看成一個黑盒子。
  8. 精度和召回率反映了分類器分類性能的兩個方面。如果綜合考慮查準率與查全率,可以得到新的評價指標F1-score,也稱爲綜合分類率:F1=2×precision×recallprecision+recallF1=\frac{2 \times precision \times recall}{precision + recall}

  • 爲了綜合多個類別的分類情況,評測系統整體性能,經常採用的還有微平均F1(micro-averaging)和宏平均F1(macro-averaging )兩種指標。

​ (1)宏平均F1與微平均F1是以兩種不同的平均方式求的全局F1指標。

​ (2)宏平均F1的計算方法先對每個類別單獨計算F1值,再取這些F1值的算術平均值作爲全局指標。

​ (3)微平均F1的計算方法是先累加計算各個類別的a、b、c、d的值,再由這些值求出F1值。

​ (4)由兩種平均F1的計算方式不難看出,宏平均F1平等對待每一個類別,所以它的值主要受到稀有類別的影響,而微平均F1平等考慮文檔集中的每一個文檔,所以它的值受到常見類別的影響比較大。


ROC曲線是(Receiver Operating Characteristic Curve,受試者工作特徵曲線)的簡稱,是以靈敏度(真陽性率)爲縱座標,以1-特異性(假陽性率)爲橫座標繪製的性能評價曲線。可以將不同模型對同一數據集的ROC曲線繪製在同一笛卡爾座標系中,ROC曲線越靠近左上角,說明其對應模型越可靠。也可以通過ROC曲線下面的面積(Area Under Curve, AUC)來評價模型,AUC越大,模型越可靠。
ROC


一般情況下,在一定正確率前提下,要求分類器的召回率儘量高。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章