泛化理論的目的就是模型在未知的數據上能夠表現的夠好。它主要考慮的是模型在訓練集樣本的損失函數(ERM)達到的最小化的情況下,是否在更廣闊的大衆化的樣本中是否能夠達到損失函數最小化,通常是不一定的。
ERM模型empirical risk minimization
- 廣泛數據分佈(Population distribution)
- 特徵Feature(x∈X⊂\(R^d\)):比如一張圖片
- 標籤Label(y∈Y⊂R):比如貓狗分類
這裏的x和y其實都是隨機變量(有關隨機變量的內容可以參考概率論整理 中的隨機變量及其分佈),(x,y)~P,它們服從於一種概率分佈。這個P就是廣泛數據分佈,但是這個P具體是如何分佈的,我們是不知道的。
- 訓練數據集(Trainning Dataset)
由於廣泛數據分佈我們是不知道的,但是我們可以得到一組訓練數據集S=\(\{(x_i,y_i)\}_{i=1}^n\),它是廣泛數據分佈的一個特例。
- 最小化的經驗損失(empirical risk minimization)
這個其實就是訓練損失函數
它表示服從訓練數據集概率分佈的損失函數。
算法A:x×y->θ,這個θ表示模型參數,輸入的是數據x、y,輸出的是模型參數θ
- 模型\(y=f_θ(x)\)
訓練好的模型就是找到最好的θ的過程。
- 推理(Evaluation)
廣泛損失(Population risk)
這個D就是廣泛數據分佈,由於D未知,所以我們取代的另外一些測試數據集。
泛化差距(generalization gap)
它表示的廣泛損失和訓練損失之間的差距。等式右邊是一種常用的寫法。對其進行分解
它表示如果我們的訓練優化做的比較好,並且訓練損失的分佈離廣泛損失又比較近,那麼就是一個比較好的廣泛損失結果。
這裏我們主要研究的就是泛化差距(Generalization Gap),當存在標籤噪聲(label noise)的時候,廣泛損失是不可能到0的,比如我們推理出來的圖片的概率是0.9是貓,0.1是狗。所以無論是Generalization Gap還是Optimization至少有一個不可能到0。
在一個參數量小於樣本數的線性迴歸(Under-para linear reg)中,它的泛化差距是比較小的(~d/n,d是參數量,n是樣本數),但是訓練損失是比較大的(~\({n-d\over n}σ^2\),\(σ^2\)爲方差),因爲線性模型過於簡單,無法完全擬合好數據。
在一個參數量大於樣本數的線性迴歸(Over-para linear reg)中,泛化差距是比較大的(≥\(σ^2\)),訓練損失是比較小的(=0),因爲參數量大,可以直接插值。
故而,泛化研究中會基於一個假設,,即存在一個f(前向運算),使得廣泛損失趨近於0。否則我們需要考慮超額損失(excess risk),例如過擬合(begin overfitting)。