泛化理論整理

原創

2023-07-30 13:46

泛化理論的目的就是模型在未知的數據上能夠表現的夠好。它主要考慮的是模型在訓練集樣本的損失函數(ERM)達到的最小化的情況下，是否在更廣闊的大衆化的樣本中是否能夠達到損失函數最小化，通常是不一定的。

ERM模型empirical risk minimization

這裏的x和y其實都是隨機變量(有關隨機變量的內容可以參考概率論整理中的隨機變量及其分佈),(x,y)~P，它們服從於一種概率分佈。這個P就是廣泛數據分佈，但是這個P具體是如何分佈的，我們是不知道的。

由於廣泛數據分佈我們是不知道的，但是我們可以得到一組訓練數據集S=\(\{(x_i,y_i)\}_{i=1}^n\)，它是廣泛數據分佈的一個特例。

這個其實就是訓練損失函數

它表示服從訓練數據集概率分佈的損失函數。

算法A:x×y->θ，這個θ表示模型參數，輸入的是數據x、y，輸出的是模型參數θ

訓練好的模型就是找到最好的θ的過程。

廣泛損失(Population risk)

這個D就是廣泛數據分佈，由於D未知，所以我們取代的另外一些測試數據集。

泛化差距(generalization gap)

它表示的廣泛損失和訓練損失之間的差距。等式右邊是一種常用的寫法。對其進行分解

它表示如果我們的訓練優化做的比較好，並且訓練損失的分佈離廣泛損失又比較近，那麼就是一個比較好的廣泛損失結果。

這裏我們主要研究的就是泛化差距(Generalization Gap)，當存在標籤噪聲(label noise)的時候，廣泛損失是不可能到0的，比如我們推理出來的圖片的概率是0.9是貓，0.1是狗。所以無論是Generalization Gap還是Optimization至少有一個不可能到0。

在一個參數量小於樣本數的線性迴歸(Under-para linear reg)中，它的泛化差距是比較小的(~d/n,d是參數量，n是樣本數)，但是訓練損失是比較大的(~\({n-d\over n}σ^2\),\(σ^2\)爲方差)，因爲線性模型過於簡單，無法完全擬合好數據。

在一個參數量大於樣本數的線性迴歸(Over-para linear reg)中，泛化差距是比較大的(≥\(σ^2\))，訓練損失是比較小的(=0)，因爲參數量大，可以直接插值。

故而，泛化研究中會基於一個假設，，即存在一個f(前向運算)，使得廣泛損失趨近於0。否則我們需要考慮超額損失(excess risk)，例如過擬合(begin overfitting)。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.