S爲[question, 候選answer]拼接的集合,D={D_1, D_2, … , D_N}爲文檔集合。
L_Q:question與候選answer中的最大長度
L_D: 爲文檔D中的最大長度
Dual-path attention layer
Contex layer層的輸出爲S:[L_Q, d]、D_i:[L_D, d]
表示與候選S相關的第n篇文檔中的第j個字向量,維度爲[L_D,d]
S維度爲[L_Q,d]
matching matrix由S與D做點積得到,維度爲[L_Q, L_D],實際上是爲了做注意力機制。
Q-centric
對matching matrix按行進行softmax,,維度爲[L_Q, d],其中的維度爲[1,d]。
作用是利用D來表示S。
做完softmax後,再與文檔向量相乘,這裏實際與bert中與V相乘的作用類似,即利用文檔向量對S中各個字的貢獻度。
中間可能有S的信息損失,所以再將S與拼接,維度爲[L_Q, 2d]
D-centric
取matching matrix的每一列,表示第n篇文檔按照“Q-centric”方法生成的矩陣,維度爲[L_D, d],生成方法即第n篇與其餘剩下的文檔。利用S來表示D
做拼接,維度爲[L_D, 2d],的維度爲[L_D, 2d],接着做注意力,的維度爲[L_D, 2d]
cross-document attention
對N篇文檔,按照D-centric中方法運算,最後得到[N, L_D, 2d]
matching feature
對matching matrix矩陣,經過兩層CNN,一層max-pooling後,維度爲[L_Q, d]