KDD 2017 《ReasoNet: Learning to Stop Reading in Machine Comprehension》論文筆記

原創

2020-07-04 09:51

簡介

本文面向機器閱讀理解問題（Machine Reading Comprehension），作者來自微軟研究院。
下載鏈接

動機

現有的方法可以分爲兩類：單步推理（Single turn）、多步推理（multiple turns）。多步推理是由單步推理衍生而來，單步推理又可以看做是多步推理的特例（turn=1）。這兩種方法的共同點是，推理輪數固定，這不符合人類的閱讀行爲。人會根據當前是否得到了足夠的信息，決定中止閱讀或繼續閱讀。本文基於此動機，提出ReasoNet，可以動態決定推理輪數。

貢獻

將強化學習和多步推理結合，可動態終止推理過程。
實驗結果較好，是SOTA模型。

方法

本文方法的整體架構如下圖所示。按照原文的劃分，主要包括5個部分，下面一一介紹。

Memory
是一個外部庫， $M=\{m_i\}_{i=1...D}$ ，用於生成attention。
Attention
通過隱狀態和外部庫，得到當前時間步的attention， $x_t=f_{att}(s_t,M;\theta_x)$
Internel State
每個時間步的隱狀態，通過RNN得到， $s_{t+1}=RNN(s_t,x_t;\theta_s)$
Termination Gate
終止門，用於判斷當前時間步是否終止， $t_t \sim p(·|f_{tg}(s_t;\theta_{tg}))$ ， $t_t$ 是一個二值隨機變量，當它是true時，終止。
Answer
當 $t_t=true$ 時，得到answer， $a_t \sim p(·|f_a(s_t;\theta_a))$

整個Inference過程如算法1所示：

在模型的優化過程中，梯度計算公式爲：

上式中， $b_T$ 一般是預設的值 $b_T=E_{\pi}[r_T]$ ，並根據 $b_T=\lambda b_T+(1-\lambda)b_T$ 不斷更新，被稱作reward baseline（獎勵基線），用於在強化學習任務中降低方差。但是在本文中，作者發現，這麼做收斂很慢，因爲 $b_T$ 不能捕獲dynamic termination behavior。作者將梯度計算公式改爲：

其中， $b$ 的計算公式爲：

作者還說了，使用 $\frac{r_T}{b}-1$ 代替 $r_T-b$ 能夠更快的收斂。

實驗

在兩個數據集上的實驗結果：

在CNN數據集上， termination step的分佈情況：

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

KDD 2017 《ReasoNet: Learning to Stop Reading in Machine Comprehension》論文筆記

目錄

簡介

動機

貢獻

方法

實驗

中外程序員到底有啥區別？

Nginx R31 doc-13-Limiting Access to Proxied HTTP Resources 訪問限流

Python數據分析與挖掘實戰（5章）

python包：pandas

公司剛入職了一名 Java 中級開發，短短 4 行代碼居然湊齊了 3 個 bug！我哭了~~

C++文件/流

一、什麼是Docker

二、Docker 組件

揹包九講一 01揹包

今天！通義靈碼在北京、成都、杭州三城開講啦

2020年, VideoQA論文彙總

2020-07-07 CVPR2020 i3DV論文討論（3）筆記

2020北京智源大會圖神經網絡專題總結

2020-07-06 組會筆記

2020-07-02 CVPR2020 V&L論文討論（3）筆記

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結