簡單談談神經網絡中的梯度消失、爆炸原因及解決辦法

爲什麼要使用梯度更新規則?

我們先來簡單說一下梯度小時的根源–深度神經網絡和反向傳播。目前深度學習方法中,深度神經網絡的發展造就了我們可以構建更深層的網絡完成更復雜的任務,深層網絡比如深度卷積網絡,LSTM等等,而且最終結果表明,在處理複雜任務上,深度網絡比淺層的網絡具有更好的效果。但是,目前優化神經網絡的方法都是基於反向傳播的思想,即根據損失函數計算的誤差通過梯度反向傳播的方式,指導深度網絡權值的更新優化。

這樣做是有一定原因的,首先,深層網絡由許多非線性層堆疊而來,每一層非線性層都可以視爲是一個非線性函數f(x)f(x)f(x)因此整個深度網絡可以視爲是一個複合的非線性多元函數

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章