論文筆記: Medical Exam Question Answering with Large-scale Reading Comprehension

S爲[question, 候選answer]拼接的集合,D={D_1, D_2, … , D_N}爲文檔集合。
L_Q:question與候選answer中的最大長度
L_D: 爲文檔D中的最大長度
在這裏插入圖片描述

Dual-path attention layer

Contex layer層的輸出爲S:[L_Q, d]、D_i:[L_D, d]
Dn(j)D_n(j)表示與候選S相關的第n篇文檔中的第j個字向量,DnD_n維度爲[L_D,d]
S維度爲[L_Q,d]
在這裏插入圖片描述
matching matrix由S與D做點積得到,維度爲[L_Q, L_D],實際上是爲了做注意力機制。M=SDTM=SD^T

Q-centric

在這裏插入圖片描述
對matching matrix按行進行softmax,RnQ=[RnQ(1),RnQ(2),...,RnQ(LQ)]R_n^Q={[R_n^Q(1),R_n^Q(2),...,R_n^Q(L_Q)]},維度爲[L_Q, d],其中RnQ(i)R_n^Q(i)的維度爲[1,d]。
作用是利用D來表示S。RnQ=softmax(SDT)DR_n^Q=softmax(SD^T)*D
做完softmax後,再與文檔向量相乘,這裏實際與bert中與V相乘的作用類似,即利用文檔向量DnD_n對S中各個字的貢獻度。
中間可能有S的信息損失,所以再將S與RnQR_n^Q拼接,維度爲[L_Q, 2d]

D-centric

在這裏插入圖片描述
取matching matrix的每一列,RnDR_n^D表示第n篇文檔按照“Q-centric”方法生成的矩陣,維度爲[L_D, d],生成方法即第n篇與其餘剩下的文檔。利用S來表示D
RnD=softmax(DST)SR_n^D=softmax(DS^T)*S
Dm(i)+RmD(i)D_m(i)+R_m^D(i)做拼接,維度爲[L_D, 2d],MmnM_{mn}^{'}的維度爲[L_D, 2d],接着做注意力,RmDR_m^{'}{D}的維度爲[L_D, 2d]

cross-document attention

對N篇文檔,按照D-centric中方法運算,最後得到[N, L_D, 2d]

matching feature

在這裏插入圖片描述對matching matrix矩陣,經過兩層CNN,一層max-pooling後,維度爲[L_Q, d]

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章