【機器學習】常見模型評估指標

原創

2019-10-26 01:10

碼字不易，喜歡請點贊！！！
【機器學習】中常見的模型評估指標
常見類別一：錯誤率/精度
在 $m$ 個樣本中，有 $\alpha$ 個樣本分類錯誤。
1.錯誤率(error rate)： $E = \alpha/m$
2.精度(accuracy)： $1-\alpha/m$

常見類別二：查準率/查全率
對於預測問題，我們根據真實情況和預測結果組合有真正例(true positive)、假正例(false positive)、真反例(true negative)、假反例(false negative)，分類結果得混淆矩陣(confusion matrix)如下圖，則有：
樣本總數 $m=TP+FP+TN+FN$

並有以下兩個評估指標：
1.查準率(precision)：體現查出來的正例中有多少是真正例，即 $P=\frac{TP}{TP+FP}$
2.查全率(recall)：體現有多少正例被查出來了，即 $R=\frac{TP}{TP+FN}$

根據查準率和查全率的公式可知，查準率和查全率是一對矛盾的指標。一般，查準率越高，查全率就越低；反之，查全率越高，則查準率越低。

下圖中，查全率爲橫軸，查準率爲縱軸，稱爲查準率-查全率曲線，簡稱“P-R曲線”。

可以通過“P-R曲線”，來評價模型的好壞，具體方法有以下幾種：

B曲線包含C曲線，因此B優於C
查準率=查全率的點稱爲平衡點，平衡點的值越大，則越優
“P-R曲線”下面積越大，則越優
F1度量指標： $F1=\frac{2*P*R}{P+R}=\frac{2*TP}{樣本總數+TP-TN}$

常見類別三：ROC/AUC
首先，兩個指標，真正例率(True Positive Rate,TPR)和假正例率(False Positive Rate,FPR)的計算公式如下：

$TRP = \frac{TP}{TP+FN}$

$FRP = \frac{FP}{FP+TN}$

1.ROC曲線(Receiver Operating Characteristic)，稱爲“受試者工作特徵”，使用TPR作爲縱軸，FPR作爲橫軸，如下圖。對於ROC曲線的優劣比較可以參考P-R曲線。
2.AUC(Area Under ROC Curve)，表示ROC曲線下面積，使用該面積的大小來判斷ROC曲線的優劣，AUC越大越好。
注：AUC範圍：[0.5,1.0]

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

【機器學習】常見模型評估指標

Nginx R31 doc 官方文檔-01-nginx 如何安裝

Qt/C++音視頻開發74-合併標籤圖形/生成yolo運算結果圖形/文字和圖形合併成一個/水印濾鏡

挑戰程序設計競賽 2.2章習題 POJ - 3617 Best Cow Line 貪心

字節面試：MySQL什麼時候鎖表？如何防止鎖表？

.NET8連接SQL SERVER 2008 R2 報：證書鏈是由不受信任的頒發機構頒發的

golang開發環境搭建(win10)

python計算機視覺學習筆記——PIL庫的用法

Golang初學：獲取程序內存使用情況，std runtime

【中信卡】數據挖掘分析筆試+面經

【陌陌】數據分析師四面

【機器學習】十四、AdaBoost算法原理詳解

【Python】Selenium爬蟲提取標籤屬性值

【Python】Selenium爬蟲提取文本內容

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結