Ground truth的含義

原創

qwezhaohaihong

2020-05-19 19:16

在機器學習中，術語”ground truth”指的是用於有監督訓練的訓練集的分類準確性，主要用於統計模型中驗證或推翻某種研究假設。術語也指收集準確客觀的數據用於驗證的過程。

訓練集中的不準確性總是和訓練結果集中的不準確性是關聯的。

機器學習包括有監督學習(supervisedlearning)，無監督學習(unsupervised learning)，和半監督學習（semi-supervisedlearning）.

在*有監督學習中，數據是有標註的，以(x, t)的形式出現，其中x是輸入數據，t是標註.正確的t標註是ground truth，錯誤的標記則不是。（也有人將所有標註數據都叫做ground truth）

由模型函數的數據則是由(x, y)的形式出現的。其中x爲之前的輸入數據，y爲模型預測的值。

標註會和模型預測的結果作比較。在損耗函數(loss function / error function)中會將y 和 t 作比較，從而計算損耗(loss/ error)。比如在最小方差中：

因此如果標註數據不是groundtruth，那麼loss的計算將會產生誤差，從而影響到模型質量。

1. 錯誤的數據

標註數據1 ( (84,62,86) ,1)，其中x =(84,62,86), t = 1 。
標註數據2 ( (84,162,86) , 1)，其中x =(84,162,86), t = 1 。
這裏標註數據1是ground truth，而標註數據2不是。
預測數據1 y = -1
預測數據2 y = -1

2. 正確的數據

標註數據1 ( (84,62,86) ,1)，其中x =(84,62,86), t = 1 。
標註數據2 ( (84,162,86) , 1)，其中x =(84,162,86), t = -1 。（改爲ground truth）
這裏標註數據1和2都是ground truth。
預測數據1 y = -1
預測數據2 y = -1

由於使用錯誤的數據，對模型的估計比實際要糟糕。另外，標記數據還被用來更新權重，錯誤標記的數據會導致權重更新錯誤。因此使用高質量的數據是很有必要的。
* 在半監督學習中，對標記數據也要進行比較

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Ground truth的含義

釘釘打卡速度慢

Nginx R31 doc 官方文檔-01-nginx 如何安裝

Qt/C++音視頻開發74-合併標籤圖形/生成yolo運算結果圖形/文字和圖形合併成一個/水印濾鏡

挑戰程序設計競賽 2.2章習題 POJ - 3617 Best Cow Line 貪心

字節面試：MySQL什麼時候鎖表？如何防止鎖表？

.NET8連接SQL SERVER 2008 R2 報：證書鏈是由不受信任的頒發機構頒發的

golang開發環境搭建(win10)

python計算機視覺學習筆記——PIL庫的用法

Golang初學：獲取程序內存使用情況，std runtime

圖卷積網絡-《深入淺出圖神經網絡》讀書筆記

CNN卷積神經網絡之卷積運算的初步理解

忘了忘了，以前學的矩陣知識全交給老師了，敲黑板了，矩陣乘法實例講解

統計學系方法4.1補充理解

AO*算法詳解，附例子和算法詳細步驟

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結