深度學習筆記(31):LSTM一點簡要理解

前言

RNN提供了捕捉序列特性的一種方案,然而由於梯度爆炸或者梯度消失問題,對於句子中距離較長的詞彙,RNN由於訓練時反向傳播的修改從句子末尾到句子開始時已經變得很微弱,以至於難以建立較大的聯繫,因而RNN在捕捉中長距離句型關係時效果較差。很多研究者就提出了很多種方案在一定程度上良好的解決了這種問題,其中最知名的就是LSTM(1997)和GRM(2014).

LSTM

在這裏插入圖片描述
個人認爲,要想理解LSTM,首先要明白動機:狀態擴展。RNN的問題就在於他由於只有一個狀態,所以“長途跋涉”,對於短期敏感,無法長期練習。所以我們要專門建立一個長期記憶的結構,而這個結構又由之前的長期記憶和當下的短期記憶共同決定,所以我們要建立相應的門控。這有利於我們方便摸清裏面的連接邏輯。搞清楚訓練時候的正向傳播,反向傳播的關係式。這裏這篇文章說得十分詳細https://zybuluo.com/hanbingtao/note/581764
之後實質上我們就可以將其封裝起來了。相當於雙路RNN。搭建起來效果也很好,等我們用它實操之後再來補充。

參考資料

https://zybuluo.com/hanbingtao/note/581764

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章