CS224D 課程學習筆記 L06

原創

蜡笔大龙猫

2019-01-12 23:58

Lecture 6. Neural Tips and Tricks

Lecture 6主要介紹了深度學習應用的一些小技巧，例如多任務訓練、梯度檢測、正則化、多種激活函數、參數初始化、學習速率等。

文章目錄

Lecture 6. Neural Tips and Tricks

多任務學習（也叫權重共享）

對比上節課我們學到的神經網絡，多任務學習就是在輸出層用softmax分類器取代標量得分。訓練方法依然採用後向傳播。

神經網絡和傳統機器學習方法的不同在於，深度學習需要同時學習詞向量和權重。

主要思想：我們在訓練多種不同NLP任務（例如NER和POS），可以共享兩個任務的詞向量和隱藏層的權重，只有輸出層的softmax權重不同。損失函數是不同任務損失函數相加，例如：

$\delta^{total} = \delta^{POS} + \delta^{NER}$

參考論文《NLP(almost from scratch, Collobert et al.2011)》

成功的神經網絡的通用步驟是這樣的：

選擇合適的網絡框架
1. 框架：單個詞、固定窗口、詞袋、循環神經網絡、遞歸神經網絡、CNN等；
2. 非線性神經單元
用梯度檢測器檢查實現代碼是否存在bug
參數初始化
優化技巧
檢查模型是否強大到過擬合
1. 如果沒有過擬合，改變模型框架或者模型調大
2. 如果過擬合，請用正則化

下面我們根據這些步驟分別介紹使用技巧。

梯度檢測

梯度檢測我們在第一次作業中用過，從導數的本質上求得參數的梯度，和我們用後向傳播計算得到的梯度對比。公式如下：

$f\prime (\theta) \approx \frac{J(\theta^{(i+)}) - J(\theta^{(i-)})}{2\epsilon}$

其中， $\theta^{(i+)} = \theta + \epsilon \times e_i$

簡單的代碼實現爲：

old_value = x[ix]
x[ix] = old_value + h 
fxh = f(x) 
x[ix] = old_value
grad[ix] = (fxh - fx) / h

如果梯度檢測失敗了應該怎麼做？修改代碼確定沒有bug！

正則化

正則化前面課程提到的次數也很多，和大多數分類器一樣，神經網絡也需要避免過擬合，使得驗證集和測試集能夠獲得良好的表現。正則化後的損失函數爲：

$J_R = J + \lambda\sum_{i=1}^L||W^{(i)}||_F$

上式中， $||W^{(i)}||_F$ 是矩陣 $W^{(i)}$ 的 $F$ 範數， $\lambda$ 是正則化選項的相對權重。

非線性神經元

目前爲止我們討論的非線性神經元有sigmoid，然而在很多應用中有更好的激活函數。常用的有：

最近出現的一個非線性網絡，公式：

$f_i(z) = max_{j\in[1,k]}z_{ij}$

$z_{ij} = x^TW_{\cdot \cdot ij} + b_{ij}$

這種方法在一些圖片數據集上取得了不錯的效果。

參數初始化

論文《Understanding the difficulty of training deep feedfor-ward neural networks (2010), Xavier et al》中研究了權重和偏置的初始值不同對訓練的影響，結果表明，當權重矩陣 $W\in R^{n^{(l+1)}\times n^{(l)}}$ 採用以下範圍的均勻分佈來隨機初始化時，對sigmoid和tanh激活函數會得到更低的誤差率和更快的收斂速度：

$U[-\sqrt{\frac{6}{n^{(l)} + n^{(l+1)}}}, \sqrt{\frac{6}{n^{(l)} + n^{(l+1)}}}]$

其中， $n^{(l)}$ 表示輸入單元的個數， $n^{l+1}$ 表示輸出單元的個數。

目的：維護層層之間激活方差和後向傳播的梯度方差。

學習速率

模型中梯度更新的速度使用學習速率這個變量來控制，在下面公式中， $\alpha$ 表示學習速率：

$\theta^{new} = \theta^{old} - \alpha \Delta_{\theta}J_t(\theta)$

梯度更新的速度並不是越快越好， $alpha$ 太大，可能會導致無法收斂到最優解。在非凸模型中(我們遇到的大部分模型都是非凸的)，很大的學習速率導致損失函數的發散機率更高。

關於學習速率的設置有很多變種，詳細信息可以看講義。

AdaGrad

AdaGrad可以說是標準的SGD，但是隻有一點不同：它的每個參數的學習速率是不同的。每個參數的學習速率依賴於歷史更新信息，換句話說，沒有更新過的參數的學習速率可能更高，用公式表示：

$\theta_{t,i} = \theta_{t-1,i} - \frac{\alpha}{\sqrt{\sum_{\tau = 1}^tg_{\tau,i}^2}}g_{t,i}$

其中， $g_{t,i} = \frac{\partial}{\partial \theta_i^t}J_t(\theta)$

簡單的代碼實現：

cache += dx**2
x += - learning_rate * dx / np.sqrt(cache + 1e-8)

其他方法

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

CS224D 課程學習筆記 L06

Lecture 6. Neural Tips and Tricks

文章目錄

多任務學習（也叫權重共享）

梯度檢測

正則化

非線性神經元

Sigmoid

Tanh

Hard Tanh

Soft sign

ReLu

Leaky ReLu

MaxOut Network

參數初始化

學習速率

AdaGrad

其他方法

再談23種設計模式（3）：行爲型模式（學習筆記）

Power Automate Desktop 安裝完，登錄後老是提示one driver 錯誤

微前端學習筆記(4):從微前端到微模塊之EMP與hel-micro方案探索

微前端學習筆記（1）：微前端總體架構概述，從微服務發微

985 碩士程序員，空窗 4 個月沒有 Offer！

一文搞懂 Spring 循環依賴

賽博鬥地主——使用大語言模型扮演Agent智能體玩牌類遊戲。

VScode右鍵打開(添加到右鍵)

記一次 .NET某工控視覺自動化系統卡死分析

WindowsServer--SQL Server搭建主從同步實現讀寫分離 - 事務性分發

2012騰訊暑期實習筆試

《編程珠璣》讀書筆記（三）

《知識圖譜的系統工程觀》筆記

文本特徵提取方法研究

【Caffe】簡單介紹

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結