1、準確率與召回率（Precision & Recall）

準確率和召回率是廣泛用於信息檢索和統計學分類領域的兩個度量值，用來評價結果的質量。其中精度是檢索出相關文檔數與檢索出的文檔總數的比率，衡量的是檢索系統的查準率；召回率是指檢索出的相關文檔數和文檔庫中所有的相關文檔數的比率，衡量的是檢索系統的查全率。

若一個實例是正類，但是被預測成爲正類，即爲真正類(True Postive TP)
若一個實例是負類，但是被預測成爲負類，即爲真負類(True Negative TN)
若一個實例是負類，但是被預測成爲正類，即爲假正類(False Postive FP)
若一個實例是正類，但是被預測成爲負類，即爲假負類(False Negative FN）

針對每個預測，分別統計TP（預測答案正確），FP（錯將其他類預測爲本類），FN（本類標籤預測爲其他類標）。

準確率
召回率

兩者取值在0和1之間，數值越接近1，查準率或查全率就越高。

舉個栗子：

某個湖中有1000條草魚， 500只小龍蝦， 500只甲魚。現在假設我們以捕獲草魚爲目標，每一次捕捉都是有放回的（保證各個種類數量不變）。

第一次捕捉到（放回），800條草魚， 200只小龍蝦， 300只甲魚，那麼指標爲：

precision = 800 / (800 + 200 + 300) = 800 / 1300 ≈ 61.54%
recall = 800 / 1000 = 80%
第二次將所有的草魚、小龍蝦、甲魚全部捕捉上來，指標爲：

precision = 1000 / (1000 + 500 + 500) = 1000 / 2000 = 50%
recall = 1000 / 1000 = 100%

此可見，正確率是評估捕獲的成果中目標成果所佔得比例；召回率，顧名思義，就是從關注領域中，召回目標類別的比例

2、綜合評價指標（F-Measure）

P和R指標有時候會出現的矛盾的情況，這樣就需要綜合考慮他們，最常見的方法就是F-Measure（又稱爲F-Score）
F-Measure是Precision和Recall加權調和平均：

當參數α=1時，就是最常見的F1：

如果類別爲多類，則F1-score 求均值：

F值，則是綜合這二者指標的評估指標，用於綜合反映整體的指標。分類比賽都是以F1作爲指標的。

3.平均正確率（Average Precision, AP）

在這一積分中，其中p代表Precision ，r代表Recall，p是一個以r爲參數的函數。

實際上這一積分極其接近於這一數值：對每一種閾值分別求（Precision值）乘以（Recall值的變化情況），再把所有閾值下求得的乘積值進行累加。公式如下：

在這一公式中，N代表測試集中所有圖片的個數，P(k)表示在能識別出k個圖片的時候Precision的值，而 Delta r(k) 則表示識別圖片個數從k-1變化到k時（通過調整閾值）Recall值的變化情況。

IoU

IoU這一值，可以理解爲系統預測出來的框與原來圖片中標記的框的重合程度。
計算方法即檢測結果Detection Result與 Ground Truth 的交集比上它們的並集，即爲檢測的準確率：

如下圖所示：
藍色的框是：GroundTruth
黃色的框是：DetectionResult
綠色的框是：DetectionResult ⋂ GroundTruth
紅色的框是：DetectionResult ⋃ GroundTruth