論文筆記:Tree-LSTM結構的三篇論文總結

對於序列數據而言,從最早的 RNN 結構單元,後來衍生出了 LSTM 以及 GRU 等等變種,這些變種單元的功能更好,並且有效解決了RNN的梯度消失/爆炸問題。對於樹結構信息來說也是如此,2015年,三篇論文同時期提出了 Tree-LSTM 的結構,分別是:

  • 1.Compositional Distributional Semantics with Long Short Term Memory(Phong Le et al., 2015)
  • 2.Long Short-Term Memory Over Recursive Structures (Xiaodan Zhu et al., 2015)
  • 3.Improved Semantic Representations FromTree-Structured Long Short-Term Memory Networks (KaiSheng Tai et al., 2015)

下面在說的時候論文1,2,3即按照這個順序

三篇論文的出發點其實是一樣的,都是對之前的經典的遞歸神經網絡的合併部分進行改進(也就是從兩個/多個子節點合併信息成爲一個父節點的處理部分,例如 Socher 最早的 RvNN 結構中就是簡單的使用了一個 W 權重矩陣,然後矩陣乘以兩個子節點向量的疊加(concatenation)), 當然這裏的改進就是受到 LSTM 單元的啓發,引入LSTM中一樣的記憶單元和門機制來更好地進行組合信息。這個改進的結構就是 Tree-LSTM(不同的論文中的簡寫不同)。三篇論文還是比較好理解的,在這裏記錄幾個讀論文時的小問題。

1.目的

與之前的遞歸神經網絡家族一樣,這裏要解決的問題就是如何由單個單詞的表示得到更高層面上(整個句子或者某些短語)的表示,例如使用詞向量的組合得到整個句子的向量表示,然後就可以使用這個表示去做一些更高層的任務,在這三篇論文中都使用了 Sentiment Classification 作爲評測的任務。

2.解決問題

這個問題在三篇論文的Introduction部分都有提及,其實原因就跟我們都知道RNN可以處理序列數據,但是依然大家都選擇LSTM或GRU一樣,原來的RvNN結構也會存在梯度消失/爆炸的問題,另外在論文中還提到了,這些Tree-LSTM結構更好地捕捉了長距離依賴關係(long range dependencies),其實與序列數據的處理是一一對應的,這也是作者們的靈感來源。

3.具體結構

3.1 組合方式

這裏的組合方式是指 由子節點的信息(輸出信息和狀態信息)組合成輸入門(input gate)、遺忘門(forget gate)和記憶信息單元(memory cell),當然還有輸出門等等,那些相對不太重要。三篇論文的組合方式並不同(如果相同才奇怪),舉個例子的話,從論文1中Figure4 和正下方的公式中可以很清楚的看到,結構中爲每個子節點都構建了一個輸入門,但是在論文3中,3.1節的公式可以看出這裏的結構只有一個輸入門信息。當然,這只是一個小例子,具體的內容可以看下詳細的公式。

3.2 處理數據的特點

在論文1,2中,無論是公式還是結構圖,都是直接規定了使用的樹結構是二叉的(Binarized),論文3則沒有使用這個限制(從那一堆求和符號裏就能看出來),它並不對樹結構有要求,但是在實驗部分又提到了使用的還是二叉化的數據(所以說模型歸模型,使用的時候還是更簡單的好)

3.3 論文3中的兩種Tree-LSTM

論文3中對於 Dependency tree 和 Constituency tree構建了兩種不同結構的 Tree-LSTM,這裏構建的時候考慮了這兩種 parse tree 的一些特點。例如,對於Child-Sum Tree-LSTM結構更適合子節點多(high branching fator),以及子節點無序的情況,這一點從公式中就可以看出,一開始直接就對子節點的所有狀態求和,然後再使用這個信息求出一個輸入門的信息,也就是隻有一個輸入門,而且我們直到依存樹往往會有很多詞語依附於動詞,所以從這個動詞出發會有很多分支。二另一方面,N-ary Tree-LSTM則是對每一個子節點都維護一個輸入門和記憶單元,所以更適合節點數量更少,節點有序的情況,也就是Constituency tree了。
另外,從之後的一些有關句法分析的論文來看,很多論文引用或者做對比的都是論文3,這點在使用時可以注意一下,大概是比較全面或者直接使用了Tree-LSTM這個名稱?

4 實驗

實驗部分三篇論文都是使用的SST(Stanford Sentiment Treebank)從不同層次(root層次/短語層次)以及不同粒度上進行實驗。從結果上來看,不同結構的 Tree-LSTM 也確實結果有稍微的差距。

參考

發佈了188 篇原創文章 · 獲贊 153 · 訪問量 35萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章