泛化理論整理

泛化理論的目的就是模型在未知的數據上能夠表現的夠好。它主要考慮的是模型在訓練集樣本的損失函數(ERM)達到的最小化的情況下,是否在更廣闊的大衆化的樣本中是否能夠達到損失函數最小化,通常是不一定的。

ERM模型empirical risk minimization

  • 廣泛數據分佈(Population distribution)
  1. 特徵Feature(x∈X⊂\(R^d\)):比如一張圖片
  2. 標籤Label(y∈Y⊂R):比如貓狗分類

這裏的x和y其實都是隨機變量(有關隨機變量的內容可以參考概率論整理 中的隨機變量及其分佈),(x,y)~P,它們服從於一種概率分佈。這個P就是廣泛數據分佈,但是這個P具體是如何分佈的,我們是不知道的。

  • 訓練數據集(Trainning Dataset)

由於廣泛數據分佈我們是不知道的,但是我們可以得到一組訓練數據集S=\(\{(x_i,y_i)\}_{i=1}^n\),它是廣泛數據分佈的一個特例。

  • 最小化的經驗損失(empirical risk minimization)

這個其實就是訓練損失函數

它表示服從訓練數據集概率分佈的損失函數。

算法A:x×y->θ,這個θ表示模型參數,輸入的是數據x、y,輸出的是模型參數θ

  • 模型\(y=f_θ(x)\)

訓練好的模型就是找到最好的θ的過程。

  • 推理(Evaluation)

廣泛損失(Population risk)

這個D就是廣泛數據分佈,由於D未知,所以我們取代的另外一些測試數據集。

泛化差距(generalization gap)

它表示的廣泛損失和訓練損失之間的差距。等式右邊是一種常用的寫法。對其進行分解

它表示如果我們的訓練優化做的比較好,並且訓練損失的分佈離廣泛損失又比較近,那麼就是一個比較好的廣泛損失結果。

這裏我們主要研究的就是泛化差距(Generalization Gap),當存在標籤噪聲(label noise)的時候,廣泛損失是不可能到0的,比如我們推理出來的圖片的概率是0.9是貓,0.1是狗。所以無論是Generalization Gap還是Optimization至少有一個不可能到0。

在一個參數量小於樣本數的線性迴歸(Under-para linear reg)中,它的泛化差距是比較小的(~d/n,d是參數量,n是樣本數),但是訓練損失是比較大的(~\({n-d\over n}σ^2\),\(σ^2\)爲方差),因爲線性模型過於簡單,無法完全擬合好數據。

在一個參數量大於樣本數的線性迴歸(Over-para linear reg)中,泛化差距是比較大的(≥\(σ^2\)),訓練損失是比較小的(=0),因爲參數量大,可以直接插值。

故而,泛化研究中會基於一個假設,,即存在一個f(前向運算),使得廣泛損失趨近於0。否則我們需要考慮超額損失(excess risk),例如過擬合(begin overfitting)。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章