【博文筆記】AoA Reader_Attention-over-Attention Neural Networks for Reading Comprehension

介紹

論文地址:Attention-over-Attention Neural Networks for Reading Comprehension
參考博文:
https://www.imooc.com/article/29985
https://www.cnblogs.com/sandwichnlp/p/11811396.html#model-4-aoa-reader

數據集:CNN&Daily Mail、CBT;
閱讀理解樣本:<D,Q,A>

AOA Reader 屬於是一種二維匹配模型Impatient Reader也是二維匹配模型,AoA Reader類似於CSA Reader),AOA Reader結合了按照列和按照行的方式進行Attention計算(因此叫AoA),同時使用了二次驗證的方法對AOA Reader模型計算出的答案進行再次驗證。該論文的亮點是將另一種注意力嵌套在現有注意力之上的機制,即注意力過度集中機制。

1 AoA模型具體

AoA Reader

Context Embedding文檔嵌入層和問題嵌入層的權值矩陣共享
Pair-wise Matching Score:將document與query的隱藏狀態點乘(因爲權值矩陣共享,都是雙向GRU,所以維度同),得到pari-wise matching matrix(成對匹配矩陣
在這裏插入圖片描述
Individual Attentions
注意力按列計算:計算的是doc中每個詞對query中某個詞的注意力(重要程度),最後形成文檔級別的注意力分佈a(t),也就是所謂的query-to-document attetion,見下圖,得到α矩陣。其中α的維度爲|D|*|Q|
在這裏插入圖片描述

注意力行方向歸一化——AoA模型(亮點)
利用注意力來對注意力權重進行加權求和。表示的含義就變成了給定一個文章中的單詞,問題中的那些單詞對其的重要性
在行的方向進行 Softmax 歸一化,得到 document-to-query attention
在這裏插入圖片描述
對上做平均,得到query-level attention
在這裏插入圖片描述
最後,用每個query-to-document attention和剛剛得到的query-level attention做點乘,得到document中每個詞的score。(|DQ| * |Q1|)
在這裏插入圖片描述

以上按行與按列,總結起來類似於人閱讀文檔的過程:
在看問題的時候,問題中的單詞的重要性是不一樣的。主要分析問題中每個單詞的貢獻,先定位貢獻最大的單詞(列attention+softmax),然後再在文檔中定位和這個貢獻最大的單詞相關性最高的詞(row attention + sum)作爲問題的答案

Final Predictions:單詞w可能在單詞空間V中出現了多次,其出現的位置i組成一個集合I(w, D)
在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章