機器學習 評價指標-召回率(Recall) 精確率(Precision)準確率(Accuracy)ROC曲線和AUC值

召回率(Recall) 精確率(Precision)準確率(Accuracy)ROC曲線和AUC值 是機器學習中常用的評價指標,下面用具體的事例來一一介紹每個指標的具體含義。

假設某個班級有男生80人,女生20人,共100人。目標是找出所有的女生
現在有人挑選出了50個人,其中20個是女生,另外還錯誤的把30個男生也當作女生挑選了出來。

下面根據一個圖給大家說幾個概念。
在這裏插入圖片描述
TP(True Positive):TP值是將正例判定爲正例 這裏 TP = 20 將女生判定爲女生

FP(False Positive):FP值是將負例判定爲正例 這裏 FP = 30 將男生判定爲女生

FN(False Negative):FN值是將正例判定爲負例 這裏 FN=0 將女生判定爲男生

TN(True Negative):TN值是將負判定爲負例 這裏 TN = 50 將男生判定爲男生

-準確率(Accuracy)

Accuracy=(TP+TN)/(TP+TN+FN+FP)

意思是所有預測結果的準確率 。這裏是20+50/20+30+0+50 =0.7

-召回率(Recall)

Recall = TP/ (TP+FN)

即爲實際爲女生的人中,預測爲女生的人佔比。 這裏是20/20+0 =1
即認爲預測結果很好 ,能將需要預測的女生都預測出來。

-精確率(Precision)

Precision = TP/ (TP+FP)

這裏是20/20+30
意思是在你預測的50個是女生的人中,真正女生的個數只有20個。

一般情況下,要分辨一個模型是好壞 ,需要結合召回率(Recall)和精確率(Precision)兩個值,當兩個值都高的時候,我們說這個模型很好,但實際情況都是一個高一個低。所以我們有另一個判別標準 ,F1-score 結合了Precision和Recall。

-F1得分值(F1-score)

F1-score= 2TP/(2TP + FP + FN)

當F1 -score的值越高,我們說這個模型效果越好。

-ROC曲線

接着來說ROC曲線 ,我們可以根據兩個指標形成座標軸
縱座標爲TPR(True positive rate)
橫座標爲FPR(False positive rate

TPR(True positive rate)=TP/ (TP+FN) 也就是召回率
FPR(False positive rate)=FP/(FP+TN) 即爲實際是男生,被判定爲女生的佔比,這裏FPR = 3/8

我們以FPR爲橫軸,TPR爲縱軸,得到如下ROC空間:
在這裏插入圖片描述

我們可以看出:左上角的點(TPR=1,FPR=0),爲完美分類,也就是這個模型很好,判定全對;點A(TPR>FPR),模型的判定大體是正確的。中線上的點B(TPR=FPR),也就是模型是蒙的,蒙對一半,蒙錯一半;下半平面的點C(TPR<FPR),這個模型很差,預測的大多是錯的。

而ROC曲線就是基於這樣兩個指標畫出的曲線。
如圖黑粗線就是一條ROC曲線,曲線越靠近左上角模型分類效果越好。
在這裏插入圖片描述

-AUC值

AUC值爲ROC曲線所覆蓋的區域面積,顯然,AUC越大,分類器分類效果越好。

AUC = 1,是完美分類器,採用這個預測模型時,不管設定什麼閾值都能得出完美預測。絕大多數預測的場合,不存在完美分類器。

0.5 < AUC < 1,優於隨機猜測。這個分類器(模型)妥善設定閾值的話,能有預測價值。

AUC = 0.5,跟隨機猜測一樣(例:丟銅板),模型沒有預測價值。

AUC < 0.5,比隨機猜測還差;但只要總是反預測而行,就優於隨機猜測。

總結:所有指標的具體含義結合實際例子都很好理解,但每個評價指標應用的場景都不一樣,具體場景需要個人去總結。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章