ABCNN

ABCNN

原創

2018-09-03 17:32

昨天和師兄聊了一下對attention的理解
其實相似性矩陣本身並不是模型的參數，是參數的只是後面的dense layers；

看了好久才弄懂ABCNN的卷積過程。
其實卷積也還是就是Yoon Kim的方法。
協助理解的時候，這篇講的還是很好的：

後面這裏提了一下，說把中間pooling層的輸出也合併到最後的輸出裏，可以增強performance，但是實測效果卻一般。感覺原因還是：
基於Yoon Kim的方法的話，第二層卷積的輸入本身就是各個kernel輸出的結果了，再卷積就沒有提取局部特徵的解釋性了。

以下是ABCNN_1的過程：

輸入的時候是兩個句子

a = [{\bar{a}}_{1}, {\bar{a}}_{2}, . . ., {\bar{a}}_{m}] b = [{\bar{b}}_{1}, {\bar{b}}_{2}, . . ., {\bar{b}}_{n}]

首先計算一個相似度矩陣

A_{i, j} = m a t c h s c o r e ({\bar{a}}_{i}, {\bar{b}}_{j})

{\bar{a}}_{i}, {\bar{b}}_{j}

表示對應的詞向量

m a t c h s c o r e

則是

1 / (1 + | x - y |)

，其中

| x - y |

是歐氏距離

那麼其實現在

a \in R^{d * m} b \in R^{d * n} A \in R^{m * n}

接下來，我們可以得到

F_{a} = W_{a} \dot{} A^{T} F_{b} = W_{b} \dot{} A

其中：

W_{a} \in R^{d * n}; F_{a} \in R^{d * m} W_{b} \in R^{d * m}; F_{b} \in R^{d * n}

然後將 $a, F_{a}$ 看成句子的兩個channels輸入到CNN中，做卷積
channel的作用其實可以看這裏：
https://blog.csdn.net/sscc_learning/article/details/79814146
這樣其實就是卷積核的維度也要增加一維。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.