ROC AUC PRC 詳細

原創

2018-08-28 12:07

ROC（receiver operating characteristic curve）

受試者工作特徵曲線，下圖

此圖引入了假正率，和真正率。（感覺在讀紅樓夢）
TPR ：True Positive Rate（真正率 , TPR）或靈敏度（sensitivity）（就是前文的召回率R） 　　
TPR = TP /（TP + FN）正樣本預測結果數 / 正樣本實際數

TNR ：True Negative Rate（真負率 , TNR）或特指度（specificity）　　
TNR = TN /（TN + FP）　　負樣本預測結果數 / 負樣本實際數

FPR ：False Positive Rate （假正率, FPR）　　
FPR = FP /（FP + TN）　　被預測爲正的負樣本結果數 /負樣本實際數

FNR ：False Negative Rate（假負率 , FNR）　　
FNR = FN /（TP + FN）　　被預測爲負的正樣本結果數 / 正樣本實際數

理想目標：TPR=1，FPR=0,即圖中(0,1)點，此時FPR=0，TPR=1，既所有正樣本都被分到正類裏，負樣本被分到負類裏。反之，，(1,0)，即FPR=1，TPR=0，類似地分析可以發現這是一個最糟糕的分類器，因爲它與所有的正確答案相反。
也就是說，ROC圖越向左上角偏，模型效果越好。

AUC

AUC（Area Under Curve）就是ROC去曲線下的面積，既對ROC曲線做積分。面積越大，認爲模型越好。AUC與AP(average precision)是同一回事，AP常在圖像處理中出現。

PRC(precision recall curve)

一般來說，上面的比下面的好（綠線比紅線好）。也就是說，曲線越向右上角偏，效果越好。

總結：
1般來說ROC，PRC，AUC這三個量會同時考查。其中，ROC裏的TPR既PRC裏的Recall，這種聯繫會帶來其他優點，見下文。
2對於兩種曲線來說，越光滑肯定模型越好，本質上是閾值設置的合理。

現在問題來了，到底ROC和PRC哪個曲線更優質。顯然是PRC，因爲PRC是中華人民共和國。
直接給出結論：
當正負樣本差距不大的情況下，ROC和PR的趨勢是差不多的，但是當負樣本很多的時候，兩者就截然不同了，ROC效果依然看似很好，但是PR上反映效果一般。解釋起來也簡單，假設就1個正例，100個負例，那麼基本上TPR可能一直維持在100左右，然後突然降到0.如圖，(a)(b)分別爲正負樣本1:1時的ROC曲線和PR曲線，二者比較接近。而(c)(d)的正負樣本比例爲1:1，這時ROC曲線效果依然很好，但是PR曲線則表現的比較差。這就說明PR曲線在正負樣本比例懸殊較大時更能反映分類的性能。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

ROC AUC PRC 詳細

ROC（receiver operating characteristic curve）

AUC

PRC(precision recall curve)

10分鐘搞定Mysql主從部署配置

如何使用 JS 判斷用戶是否處於活躍狀態

「Pygors跨平臺GUI」2：安裝MinGW-w64、MSYS2還是WSL2

[轉帖]

python列出centos7內存使用前50的進程信息

「Pygors跨平臺GUI」1：Pygors跨平臺GUI應用研究

一鍵自動化博客發佈工具,用過的人都說好(掘金篇)

lightdb數據庫超時相關控制參數

lightdb秒級增加列和刪除列（not null帶默認值）

Java ThreadPoolShutdown

以太坊構建節點集羣流程，多節點智能合約，常見錯誤及處理手段

區塊鏈-以太坊-構建私有鏈

貝葉斯公式先驗概率後驗概率（詳細）

精確率召回率 F1（詳細）

Sodility配置本地IDE和共享目錄

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結