一個神經網絡泛化的新視角:剛性

Stiffness: A New Perspective on Generalization in Neural Networks

論文地址:https://arxiv.org/pdf/1901.09491.pdf

發表日期:1/28/2019

項目地址:、

在下面這些方面,存在剛性(stiffness) 的變化:

1) 類別成員

2) 數據點之間的距離(在輸入空間以及潛碼空間)

3) 訓練迭代

4) 學習率

從理論角度分析,作者定義了兩個數據點(X1,y1)和(X2,y2),並且定義了可調參的W矩陣,L表示損失函數,所以L的梯度可以表示爲一個矢量g:

可以定義一個很小的參數W變化\Delta L_1,這是針對數據(X1,y1)自身而言的: 

 等價於:

從shuru輸入1到輸入2的損失函數變化可以表示爲:

定義正剛性: \Delta L<0, 負剛性\Delta L>0, 零剛性:\Delta L=0。兩個矢量的矢量相乘本身就包含符號。下面是剛性的定義式:

 sign爲符號函數,可以看出剛性本身是個標量。

圖1,說明剛度的概念。這相當於兩個輸入處的梯度之間的梯度對齊。 

基於類成員的剛性

設有兩個類Ca,Cb: 兩個類之間剛性定義爲:

 

該矩陣的對角線元素對應於當前梯度更新對類本身成員的適合性。特別是,它們對應於類普遍性。另一方面,非對角線元素表示從一個類轉移到另一個類的改進量。因此,他們直接診斷當前改進的特徵具有的通用性。我們使用驗證集的剛度屬性,因此直接進行泛化。

類之間的一般化的一致概括是類剛度矩陣的非對角線和的平均:

Nc代表類別數。 

剛性作爲距離函數

假設有兩個輸入X1和X2,它們被預處理爲零均值和單位長度。然後將它們饋入多層神經網絡,其中每個層將產生輸入的表示R並將其傳遞到下一層。示意性地,網絡形成一組表示:

 之後採取L1和L2距離,以及點乘作爲量度。

其結果在-1和1之間,因此便於不同層之間距離的比較。

在包括輸入空間的所有表示中,我們確定輸入之間的剛度量的急劇下降超過彼此的閾值距離。我們跟蹤該閾值距離作爲訓練和學習速率的函數來估計神經網絡的剛性區域的特徵尺寸。 

圖2.培訓和驗證損失的演變以及僵硬的影響。圖表顯示了訓練和驗證損失(下圖)和類依賴剛度屬性(上圖)的演變,作爲訓練期間看到的圖像數量的函數。 過度擬合的開始(訓練和有效損失曲線之間的分離)用黃線標出。類內剛度,即在同一類別中從一個輸入位置到另一個輸入位置的改進的轉移在過度擬合期間下降並且迴歸到0.類間剛度,開始平穩並且迴歸到0.這表明剛度之間的直接聯繫在驗證集和泛化上測量的屬性,並表明剛度是研究的相關屬性
圖2.訓練和驗證損失vs
​​​剛性的影響。

 圖表顯示了訓練和驗證損失(下圖)和類依賴剛度屬性(上圖)的演變,作爲訓練期間看到的圖像數量的函數。
過度擬合的開始(訓練和有效損失曲線之間的分離)用黃線標出。類內剛度,即在同一類別中從一個輸入位置到另一個輸入位置的改進的轉移在過度擬合期間下降並且迴歸到0。類間剛度,開始平穩並且迴歸到0。這表明剛度之間的直接聯繫在驗證集和泛化上測量的屬性,表明剛度是研究的相關屬性。

對於全連接神經網絡的實驗,我們使用了形式爲X→400→2005→y的6層ReLU網絡。對於使用卷積神經網絡的實驗,我們使用具有濾波器大小3的5層網絡,並且在相應的卷積層之後的信道數量是32,64,128和256,每個網絡之後是2×2最大池。最後一層是完全連接的。沒有使用批量標準化。
我們對網絡輸入進行了預處理,使其具有零均值和單位方差。我們使用不同(恆定)學習率的Adam作爲我們的優化器,默認批量大小爲32。

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章