在機器學習中,術語”ground truth”指的是用於有監督訓練的訓練集的分類準確性,主要用於統計模型中驗證或推翻某種研究假設。術語也指收集準確客觀的數據用於驗證的過程。
訓練集中的不準確性總是和訓練結果集中的不準確性是關聯的。
機器學習包括有監督學習(supervisedlearning),無監督學習(unsupervised learning),和半監督學習(semi-supervisedlearning).
在*有監督學習中,數據是有標註的,以(x, t)的形式出現,其中x是輸入數據,t是標註.正確的t標註是ground truth,錯誤的標記則不是。(也有人將所有標註數據都叫做ground truth)
由模型函數的數據則是由(x, y)的形式出現的。其中x爲之前的輸入數據,y爲模型預測的值。
標註會和模型預測的結果作比較。在損耗函數(loss function / error function)中會將y 和 t 作比較,從而計算損耗(loss/ error)。比如在最小方差中:
因此如果標註數據不是groundtruth,那麼loss的計算將會產生誤差,從而影響到模型質量。
1. 錯誤的數據
標註數據1 ( (84,62,86) ,1),其中x =(84,62,86), t = 1 。
標註數據2 ( (84,162,86) , 1),其中x =(84,162,86), t = 1 。
這裏標註數據1是ground truth,而標註數據2不是。
預測數據1 y = -1
預測數據2 y = -1
2. 正確的數據
標註數據1 ( (84,62,86) ,1),其中x =(84,62,86), t = 1 。
標註數據2 ( (84,162,86) , 1),其中x =(84,162,86), t = -1 。 (改爲ground truth)
這裏標註數據1和2都是ground truth。
預測數據1 y = -1
預測數據2 y = -1
由於使用錯誤的數據,對模型的估計比實際要糟糕。另外,標記數據還被用來更新權重,錯誤標記的數據會導致權重更新錯誤。因此使用高質量的數據是很有必要的。
* 在半監督學習中,對標記數據也要進行比較