Ground truth的含義

在機器學習中,術語”ground truth”指的是用於有監督訓練的訓練集的分類準確性,主要用於統計模型中驗證或推翻某種研究假設。術語也指收集準確客觀的數據用於驗證的過程。

訓練集中的不準確性總是和訓練結果集中的不準確性是關聯的。

 

機器學習包括有監督學習(supervisedlearning),無監督學習(unsupervised learning),和半監督學習(semi-supervisedlearning).

在*有監督學習中,數據是有標註的,以(x, t)的形式出現,其中x是輸入數據,t是標註.正確的t標註是ground truth,錯誤的標記則不是。(也有人將所有標註數據都叫做ground truth)

由模型函數的數據則是由(x, y)的形式出現的。其中x爲之前的輸入數據,y爲模型預測的值。

標註會和模型預測的結果作比較。在損耗函數(loss function / error function)中會將y 和 t 作比較,從而計算損耗(loss/ error)。比如在最小方差中:

因此如果標註數據不是groundtruth,那麼loss的計算將會產生誤差,從而影響到模型質量。

1. 錯誤的數據

標註數據1 ( (84,62,86) ,1),其中x =(84,62,86), t = 1 。 
標註數據2 ( (84,162,86) , 1),其中x =(84,162,86), t = 1 。
這裏標註數據1是ground truth,而標註數據2不是。
預測數據1 y = -1
預測數據2 y = -1

 

 

2. 正確的數據

標註數據1 ( (84,62,86) ,1),其中x =(84,62,86), t = 1 。 
標註數據2 ( (84,162,86) , 1),其中x =(84,162,86), t = -1 。 (改爲ground truth)
這裏標註數據1和2都是ground truth。
預測數據1 y = -1
預測數據2 y = -1

由於使用錯誤的數據,對模型的估計比實際要糟糕。另外,標記數據還被用來更新權重,錯誤標記的數據會導致權重更新錯誤。因此使用高質量的數據是很有必要的。
* 在半監督學習中,對標記數據也要進行比較
 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章