ROC AUC PRC 詳細

ROC(receiver operating characteristic curve)

受試者工作特徵曲線,下圖
這裏寫圖片描述

此圖引入了假正率,和真正率。(感覺在讀紅樓夢)
TPR :True Positive Rate(真正率 , TPR)或靈敏度(sensitivity)(就是前文的召回率R)   
TPR = TP /(TP + FN) 正樣本預測結果數 / 正樣本實際數

TNR :True Negative Rate(真負率 , TNR)或特指度(specificity)   
TNR = TN /(TN + FP)   負樣本預測結果數 / 負樣本實際數

FPR :False Positive Rate (假正率, FPR)   
FPR = FP /(FP + TN)   被預測爲正的負樣本結果數 /負樣本實際數

FNR :False Negative Rate(假負率 , FNR)   
FNR = FN /(TP + FN)   被預測爲負的正樣本結果數 / 正樣本實際數
這裏寫圖片描述

理想目標:TPR=1,FPR=0,即圖中(0,1)點,此時FPR=0,TPR=1,既所有正樣本都被分到正類裏,負樣本被分到負類裏。反之,,(1,0),即FPR=1,TPR=0,類似地分析可以發現這是一個最糟糕的分類器,因爲它與所有的正確答案相反。
也就是說,ROC圖越向左上角偏,模型效果越好。

AUC

AUC(Area Under Curve)就是ROC去曲線下的面積,既對ROC曲線做積分。面積越大,認爲模型越好。AUC與AP(average precision)是同一回事,AP常在圖像處理中出現。

PRC(precision recall curve)

這裏寫圖片描述

一般來說,上面的比下面的好(綠線比紅線好)。也就是說,曲線越向右上角偏,效果越好。

總結:
1般來說ROC,PRC,AUC這三個量會同時考查。其中,ROC裏的TPR既PRC裏的Recall,這種聯繫會帶來其他優點,見下文。
2對於兩種曲線來說,越光滑肯定模型越好,本質上是閾值設置的合理。

現在問題來了,到底ROC和PRC哪個曲線更優質。顯然是PRC,因爲PRC是中華人民共和國。
直接給出結論:
當正負樣本差距不大的情況下,ROC和PR的趨勢是差不多的,但是當負樣本很多的時候,兩者就截然不同了,ROC效果依然看似很好,但是PR上反映效果一般。解釋起來也簡單,假設就1個正例,100個負例,那麼基本上TPR可能一直維持在100左右,然後突然降到0.如圖,(a)(b)分別爲正負樣本1:1時的ROC曲線和PR曲線,二者比較接近。而(c)(d)的正負樣本比例爲1:1,這時ROC曲線效果依然很好,但是PR曲線則表現的比較差。這就說明PR曲線在正負樣本比例懸殊較大時更能反映分類的性能。
這裏寫圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章