小白循環神經網絡RNN LSTM 參數數量門單元 cell units timestep batch_size

原創

阿唐明

2020-05-24 16:20

RNN循環神經網絡 timestep batch_size
LSTM及參數計算
keras中若干個Cell例如LSTMCell

1.RNN循環神經網絡

先來解釋一下 batch_size timestep

樣本數據：

小明愛學習

小王愛學習

小李愛學習

小花愛學習

通常樣本數據會以(batch_size, time_step, embedding_size)送入模型，對應的可以是（4，5，100）

4表示批量送入也就是（小，小，小，小）第二批是（明，王，李，花）…

5表示時間步長，一句話共5個字

100表示詞嵌入的維度

$H_t = \phi(X_tW_{xh}+H_(t-1)W_{hh}+b_h)$

$X_t$ 輸入假設一次輸入4個字符，那麼Xt的維度是4*100

$W_{xh}$ 對應的矩陣大小是 100*hidden_size

$X_tW_{xh}$ 輸出大小即爲4*hidden_size 也就是說W將詞嵌入轉換成隱藏層大小

$H_{t-1} $ 也就是 4*hidden_size

$W_{hh}$ 相乘大小就是 hidden_size * hidden_size

$b_h$ 偏執項大小是1*h通過廣播的方式和前面相加

所以最終輸出 $H_t$ 就是4*hidden_size

對於輸出層：
$O_t = H_tW_{hq}+b_q$
$W_{hq}$ 相應的大小爲hidden_size*labels_number

這裏labels_number對應的是字典中字的個數，也就是說最終是要預測下一個字的概率

最終輸出 $O_t$ 是4*labels_number

如果是分類任務再加上一個softmax 就得到此次批量4個各自的最大概率的值是什麼。

2.LSTM及參數計算

對比上述RNN類比LSTM結構

依然用上面例子，輸入timestep=5 及一句話5個字。字嵌入維度是100及一個字用100維表示。設置LSTM(64)輸出維度是64及隱含層輸出是64維。

總共三個門結構
$遺忘門：F_t = \sigma(W_f[h_{t-1}, x_t] + b_f) \\ 輸入門：I_t = \sigma(W_i[h_{t-1}, x_t] + b_i) \\ 輸出門：O_t = \sigma(W_o[h_{t-1}, x_t] + b_o) \\ 候選記憶細胞：\tilde{C_{t}}=tanh(W_c[h_{t-1}, x_t] + b_o) \\ 記憶細胞：C_t = F_t\cdot C_{t-1}+I_t\cdot \tilde{C_{t}} \\ 隱藏狀態：H_t = O_t \cdot tanh(C_t)$
$h_{t-1}$ 是上一個隱含層，也就是64。 $[h_{t-1}, x_t]$ 維度是（1，164）所以 $W_f$ 大小就是(164,64) ，偏執項64

所以通過公式可以看到和 $[h_{t-1}, x_t]$ 相乘共用4個矩陣，參數數量是（164*64+64 ）* 4

$\sigma$ 激活函數是sigmoid輸出是[0,1]，可以看出幾個門輸出的值是0到1之間。

tanh輸出是[-1, 1]，

遺忘門控制上一個記憶細胞信息是否需要保留，輸入門控制當前候選細胞。

如果遺忘門一直近似1 輸入門近似0 ，記憶細胞會一直記錄歷史的信息。

對於這樣門組合方式是不是可以達到很好的效果，各個門結構實際上在樣本中體現在哪裏？

上圖是李宏毅老師的講義截圖，對於每一個輸入都會產生四個矩陣，由這四個矩陣決定最終的輸出（這裏也可以看出lstm的參數量是普通前饋神經網絡的4倍）

例如：輸入樣本豆漿喝起來很香醇，油條吃起來嘎嘣脆

當有足夠這樣多的句式，遺忘門會會將前一句中的主語或動詞丟棄，因爲後文中主語或吃起來等等和前文沒有關係。

有一些改進版本，例如GRU，JANET(JUST ANOTHER NETWORK)保留了遺忘門，由論文中的實驗可以看出遺忘門是最重要的門之一https://arxiv.org/yiabs/1804.04849。

實際當中LSTM的傳輸是將上一層的細胞向量，隱藏層向量和當前輸入向量（c,h,x）一起進行計算。如下是李宏毅老師的講義截圖

3.keras中若干個Cell例如LSTMCell

LSTMCell或者其他得cell表示一個cell單元，表示一個step

而LSTM是一個循環層，LSTM也是RNN結構，只是cell是用LSTMCell實現得。

如LSTMCell

LSTMCell或者其他得cell表示一個cell單元，表示一個step

而LSTM是一個循環層，LSTM也是RNN結構，只是cell是用LSTMCell實現得。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

小白循環神經網絡RNN LSTM 參數數量門單元 cell units timestep batch_size

1.RNN循環神經網絡

2.LSTM及參數計算

3.keras中若干個Cell例如LSTMCell

詐騙（殺豬盤）網站進行滲透測試

Python 潮流週刊#50：我最喜歡的 Python 3.13 新特性！

外行也能讀懂的網絡硬件設備功能原理速成

自然語言幾個重要的模型

模型實踐（二）bert 中文語料分類

小白來看：java反射與註解

關鍵詞提取-TFIDF 自定義逆文檔IDF的值

模型實踐（一）RNN LSTM 中文分類

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

小白循環神經網絡RNN LSTM 參數數量 門單元 cell units timestep batch_size

1.RNN循環神經網絡

2.LSTM及參數計算

3.keras中若干個Cell例如LSTMCell

小白循環神經網絡RNN LSTM 參數數量門單元 cell units timestep batch_size