gradient checking

原創

Dunker23

2020-03-17 17:32

gradient checking:

檢測代碼實現的神經網絡的正確性，是否可以正確的計算梯度

使用方法

numerically approximate computations of gradient
中文解釋：舉例用真實數字計算梯度，看結果是否和求導公式得出的近似

雙邊誤差

求gradient時使用two sides difference （雙邊誤差）
計算一個函數的梯度時，算 $θ$ 點和 $θ+ε$ 點的梯度不如算 $θ-ε$ 點和 $θ+ε$ 點的梯度效果好，因爲 $θ-ε$ 點和 $θ+ε$ 點的連線的斜率相比 $θ$ 點和 $θ+ε$ 點的連線的斜率，更可能和 $θ$ 點的切線相同

gradient checking步驟：

將所有網絡參數轉化成一個大向量 $θ$
將所有網絡參數的梯度也轉化成一個大向量 $dθ$
對 $θ$ 中的每個參數 $θ_{i}$ 計算 $\frac{J(θ_{1},θ_{2}...θ_{i}+ε...)-J(θ_{1},θ_{2}...θ_{i}-ε...)}{2ε}$ ，得到向量 $dθ_{approximate}$
判斷 $dθ_{approximate}$ 和 $dθ$ 是否近似，用公式 $\frac{||dθ_{approximate}-dθ||_{2}}{||dθ_{approximate}||_{2}+||dθ||_{2}}$
若 $ε=10^{-7}$ ，上面得到的值小於等於 $10^{-7}$ ，說明兩個向量非常近似；若值的範圍在 $10^{-5}$ ，說明處於臨界點，有可能有錯，也可能沒錯，也許要重新檢查一下；若值的範圍在 $10^{-3}$ 或者更大，很可能網絡實現有問題
檢查的方法：查看 $dθ_{approximate}$ 和 $dθ$ 中哪些值相差過大，以此追蹤問題

Tips

若加了regularization，check時的 $dθ$ 是加了正則項的損失函數的梯度
gradient checking和dropout分開做，例如在check時將keep prob設置爲1.0
隨機初始化參數後check，訓練迭代幾次後再check；因爲參數接近0時，難以檢測到梯度的正確性，而當隨着迭代參數越來越大時，梯度的check會越來越不準確

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

gradient checking

gradient checking:

使用方法

雙邊誤差

gradient checking步驟：

Tips

985 碩士程序員，空窗 4 個月沒有 Offer！

一文搞懂 Spring 循環依賴

賽博鬥地主——使用大語言模型扮演Agent智能體玩牌類遊戲。

VScode右鍵打開(添加到右鍵)

記一次 .NET某工控視覺自動化系統卡死分析

python 列出目錄下的文件

利用jena API查詢OWL本體

exponentially weighted averages

python socket的select，poll，epoll

train/dev/test set 數據分佈不均勻

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結