論文題目：Joint Event and Temporal Relation Extraction with Shared Representations and Structured Prediction

論文來源：EMNLP 2019 南加利福尼亞大學，伊利諾伊大學香檳分校

論文鏈接：https://www.aclweb.org/anthology/D19-1041/

關鍵詞：聯合學習，事件抽取，時序關係抽取，BERT，Bi-LSTM

文章目錄

3.4 學習

4 實施細節

1 摘要

本文解決的是事件和事件關係（本文研究的是時序關係）的聯合抽取任務。

本文的模型和現有的方法比較，有兩個優點：

（1）允許事件模塊和關係模塊共享相同的上下文嵌入和神經表示學習器，有助於事件表示的學習。

（2）採用聯合學習的方式，分配事件標籤和關係標籤，避免了傳統的pipeline方法誤差傳播的問題。

實驗顯示，本文提出的模型在EE和時序關係抽取任務上超越了state-of-the-art。

2 引言

（1）任務介紹

事件間的關係抽取是自然語言理解（NLU）中一項重要的任務，有助於處理多種下游任務，比如問答、信息檢索和敘述生成。

給定一個文本，該任務可以建模成一個圖，圖中的節點是事件，邊是相對應的關係。圖1 a就是一個例子，圖中的節點assassination, slaughtered, rampage, war, 和 Hutu都是候選的事件節點，不同類型的邊表示它們之間不同類型的關係。由於“Hutu”實際上不是一個事件，因此係統要能識別出“Hutu”和圖中其他節點的關係是NONE，也就是沒有關係。

（2）現有的方法

現有的方法都是使用pipeline的形式將這一任務分解成兩個子任務：事件抽取（EE）和關係分類，並且假定在訓練關係分類器時，給定了準確的事件。pipeline模型會將EE模塊中產生的誤差傳遞到關係分類器模塊。

（3）本文貢獻

1）第一個提出聯合學習的模型，同時抽取出事件和關係，如圖1 c所示。（受實體和關係聯合學習模型的啓發）

作者認爲，如果使用非事件節點間的NONE關係訓練關係分類器，則會有潛在的糾正EE錯誤的能力。以圖1 a爲例，如果關係分類器以高可信度預測 $(Hutu, war)$ 間的關係爲NONE，這就爲事件分類器提供了一個很強的信號：Hutu和war中至少有一個不是事件節點。

2）通過在EE模塊和關係抽取模塊共享相同的上下文嵌入和神經表示學習器，改進了事件的表示。

本文的模型在共享的嵌入和神經表示學習器的基礎上，生成了圖結構的輸出，以表示給定句子中的所有事件和關係。

3）第一個使用神經的事件抽取器（neural event extractor）處理時序關係抽取，並證明了方法的有效性。（不是主要貢獻）

有效的圖預測應該滿足兩個結構上的限制：

1）若兩個節點中有任意一個不是事件，則它們間的關係應該是NONE；

2）圖中的關係指的是事件間的時序關係，所以不能有環。

通過求解一個帶有結構約束的整數線性規劃（ILP）優化問題，保證了圖的有效性。本文的聯合模型使用neural SSVM（structural support vector machines）以端到端的形式進行訓練。

3 聯合的事件-事件關係抽取模型

首先對本文的neural SSVM模型進行概述，然後對各個模塊進行詳細介紹：1）多任務的神經打分模塊；2）模型如何進行推斷和學習。

$\mathcal{R}$ 表示所有可能的關係標籤的集合（包括NONE）， $\mathcal{E}$ 表示所有的候選事件節點集合， $\mathcal{EE}$ 表示所有的候選關係。

3.1 Neural SSVM

模型架構如圖2所示：

損失函數爲：

$\bar{S}^n_{\mathcal{E}} = S(\hat{y}^n_{\mathcal{E}}; x^n) - S(y^n_{\mathcal{E}}; x^n)$ ；
$\bar{S}^n_{\mathcal{R}} = S(\hat{y}^n_{\mathcal{R}}; x^n) - S(y^n_{\mathcal{R}}; x^n)$ ；
$\Phi$ 表示模型參數；
$n$ 表示實例的索引；
$M^n=|\mathcal{E}|^n + |\mathcal{EE}|^n$ ，表示實例 $n$ 中關係數量和事件數量的和；
one-hot向量 $y^n$ 和 $\hat{y}^n$ 分別表示實例 $n$ 中事件和事件間關係標籤的實際值和預測值。關係標籤： $y^n_{\mathcal{R}}, \hat{y}^n_{\mathcal{R}}\in {\{0, 1}\}^{|\mathcal{EE}|}$ ；實體標籤： $y^n_{\mathcal{E}}, \hat{y}^n_{\mathcal{E}}\in {\{0, 1}\}^{|\mathcal{E}|}$ ；
$\Delta(y^n, \hat{y}^n)$ 表示真實值和預測值間的漢明距離；
超參數 $C$ 和 $C_{\mathcal{E}}$ 用於權衡事件和關係的損失，以及正則損失；
$S(y^n_{\mathcal{E}}; x^n), S(y^n_{\mathcal{R}}; x^n)$ 是通過多任務的神經架構學習到的打分函數。

最大化後驗概率（MAP）得到 $\hat{y}^n$ ，並形式化爲ILP問題，在3.3節中詳細介紹。

損失函數的訓練目標是最小化 $\Delta(y^n, \hat{y}^n)$ 。

本文的neural SSVM和傳統的SSVM的區別在於打分函數。傳統的SSVM使用線性函數和人爲設計的特徵來計算分數；本文的nural SSVM使用RNN估計出打分函數，並端到端地進行訓練。

3.2 多任務的神經打分函數

RNN架構廣泛用於先前的時序關係抽取工作，RNN編碼了上下文信息。受這些工作的啓發，作者提出了基於RNN的打分函數，用於事件和事件間關係的預測，用數據驅動的方式學習到特徵，並捕獲到輸入中較長依賴的特徵。

如圖2所示，底層對應於使用預訓練模型BERT得到的詞表示，記爲 $v_k$ 。然後將其輸入到Bi-LSTM層中，進一步編碼特定任務的上下文的信息。事件抽取和事件間關係抽取任務共享這個Bi-LSTM層。

圖2中Bi-LSTM層後的左邊兩個分支，是將每個token前向和後向隱層向量直接拼接，用於事件打分函數的計算。

右邊兩個分支，對於每個候選事件對 $(i, j)$ ，分別得到兩個候選事件的前向和後向隱層向量，將它們和語言學特徵 $L_{i, j}$ 拼接起來作爲輸入，去計算關係標籤的概率分佈。

語言學特徵是從原始數據集中得到的簡單的特徵：token距離，時態，事件的極性。

$(i, j)\in \mathcal{EE}$ 表示候選的關係， $i$ 表示候選的事件。

事件打分函數和關係打分函數就是基於RNN的打分函數，下一小節將進行介紹。

3.3 MAP Inference

在訓練過程中需要進行MAP inference，以得到損失函數中的 $\hat{y}^n$ ；在測試時也需要進行MAP inference，以得到全局一致的結果。我們將這個推斷問題形式化爲一個ILP問題。

使用得到的局部分值並進行一些全局的限制，構建全局的目標函數，以形成推斷框架。全局的限制有：1）預測是單標籤的；2）事件-事件關係的一致性；3）對稱性和傳遞性。

3.3.1 目標函數

全局推斷的目標函數是找到概率最高的全局標籤分配，如下式所示：

$y^e_k$ 是指示器，表示第 $k$ 個候選是否爲一個事件；
$y^r_{i. j}$ 也是一個指示器，表示 $(i, j)$ 間是否預測有關係 $r\in R$ ；
$S(y^e_k, x), \forall e\in {\{0, 1}\}$ 和 $S(y^r_{i, j}, x), \forall r\in R$ 分別是事件打分函數和關係打分函數；
$C_{\mathcal{E}}$ 是超參數

緊跟目標函數的一個限制是：對於所有的實體和關係，只能分別對其分配一個標籤。

3.3.2 限制

引入一些附加的限制以保證事件圖的有效性和合理性。

（1）事件-事件關係一致性

定義爲：輸入的一對tokens有正向的時序關係，當且僅當這兩個tokens都是事件節點。如下的全侷限制可以滿足這一性質：

其中 $e^P_i$ 表示事件的token， $e^N_i$ 表示非事件的token； $r^P_{i, j}$ 表示正向的關係：BEFORE, AFTER, SIMULTANEOUS, INCLUDES, IS_INCLUDED, VALUE； $r^N_{i, j}$ 表示負向的關係，例如NONE。

這一屬性的證明見原文附錄A

（2）對稱性和傳遞性限制

作者還引入了關係的對稱性和傳遞性限制，規定如下：

對稱性表示如果將一個事件對的順序顛倒，則顛倒後的事件對的關係也應該顛倒。例如，若 $r_{i, j}=BEFORE$ ，則 $r_{j, i}=AFTER$ 。

傳遞性表示，若圖中存在 $(i, j), (j, k)$ 和 $(i, k)$ ，則 $(i, k)$ 的關係標籤應該由 $(i, j)$ 和 $(j, k)$ 決定。

3.4 學習

作者在實驗中直接對SSVM損失進行優化，但發現模型的性能卻下降了。

因此，作者使用了一個兩階段的學習方法，首先用pipeline的當時訓練聯合模型，不使用來自全局約束的反饋。也就是說，使用從事件模型的輸出直接構建出的候選關係以及真實的事件，形成交叉熵損失，以對局部的神經打分函數進行優化。

在第二個階段，使用式（1）中的全局SSVM損失函數，重新優化網絡以調整全局屬性。

在下一節中介紹更多細節。

4 實施細節

對baselines進行介紹，並介紹我們構建的端到端事件時序關係提取系統的4個模型，並重點介紹結構化的聯合模型。

4.1 Baselines

運行了兩個事件和關係抽取模型：在TB-Dense數據集上運行CAEVO模型，在MATRES數據集上運行CogCompTime模型。

這兩個方法都是基於人爲設計的特徵，使用傳統的學習算法進行優化，並且是pipeline的方式。

4.2 端到端的事件時序關係抽取

（1）單任務模型

構建一個端到端的系統，最基本的方法就是分別訓練事件檢測模型和關係預測模型。即圖2中的Bi-LSTM層不共享。

在驗證和測試階段，使用事件檢測模型的輸出構建出關係候選，並使用關係預測模型來進行最終的預測。

（2）多任務模型

Bi-LSTM層在兩個任務中共享，其他的和單任務模型一樣。

需要注意的是，單任務和多任務模型在訓練中都沒有直接處理NONE關係。它們都依賴於事件模型的預測來標註關係是正向的還是NONE。

（3）Pipeline聯合模型

模型架構和多任務模型一樣，區別在於pipeline的聯合模型在訓練階段，使用事件模型來構建關係候選，以用於訓練關係模型。

使用這一策略，在訓練階段若一個候選關係的元素不是事件，則會生成NONE對。這些NONE對會幫助關係模型分辨出正關係和負關係，從而增強對事件預測誤差的魯棒性。

作者採用的是：在訓練的前幾個epoch中，先使用真實的事件和關係候選，以得到相對準確的事件模型，然後再轉換到pipeline的版本。

（4）結構化的聯合模型

這一模型在第3節中有介紹。

但是，作者在直接使用SSVM損失對模型進行訓練時遇到了困難。這是由於有大量的非事件的token，模型在一開始不具備分辨出它們的能力。

因此，作者採用了兩階段（two-stage）的學習方法：先使用最佳的pipeline聯合模型，然後使用SSVM損失重新對模型進行優化。

爲了限制SSVM損失的ILP推斷中事件的搜索空間，作者使用了從事件檢測模型中得到的預測概率，對非事件進行過濾。

注意，結構化的聯合模型和pipeline模型有很大的不同。pipeline模型是先對事件進行預測，然後使用預測出的事件構建關係。這裏的結構化的聯合模型僅使用一個超參數 $T_{evt}$ 來過濾掉高度不相關的候選事件。

事件標籤和關係標籤是在使用ILP進行全局推斷時同時分配的，如3.3節所述。

我們還會過濾掉有POS標籤的tokens（表示在訓練集中沒有出現過），因爲TB-Dense數據集中大多數的事件都是名詞或者動詞，MATRES數據集中所有的事件都是動詞。

5 實驗

（1）時序關係數據集

TB-Dense，MATRES

（2）實驗任務

事件抽取，事件時序關係抽取

（3）評價度量

micro-average scores
排除了NONE和VAGUE對

兩種度量的可視化見附錄中的圖4

（4）實驗結果

本文的方法在兩個數據集上的實驗結果：

消融實驗對比結果：

6 總結

本文提出了一個端到端的事件時序關係抽取的系統。

作者提出了一個神經結構的預測模型，進行聯合的表示學習，以實現對事件和關係的同時預測。

聯合學習可以避免pipeline系統帶來的誤差傳播問題。

實驗證明了本文的模型可以使用端到端的方式，有效地處理事件時序關係抽取任務，並且在兩個數據集上實現了state-of-the-art。

未來工作：

（1）在事件和關係間構建更魯棒的結構化約束，比如考慮事件的類型，來提高使用ILP在全局進行標籤分配的質量。

（2）由於事件模型有助於關係的抽取，所以還可以考慮使用多個數據集來增強事件抽取系統的性能。

本文解決的任務是事件抽取和事件間時序關係的抽取。

本文的亮點在於：

（1）第一個提出了聯合學習的模型，同時處理上述的兩項任務。已有的對事件和關係進行抽取的任務都是pipeline形式的，這就會將事件抽取時產生的誤差帶到關係抽取模型中，並且這個誤差是在訓練關係抽取模型時不能優化的。已有一些研究，提出了對實體和關係進行聯合抽取的模型，本文的模型正是受這些工作的啓發而提出的。

（2）針對事件抽取和事件間時序關係的抽取兩個任務，使用了一層Bi-LSTM，實現了表示的共享，有助於兩個任務相互促進。

我認爲本文的不足之處在於：

（1）只是共享了第一層Bi-LSTM，沒有共享更深層的表示。DyGIE模型就針對這一問題，進行了改進。

（2）本文實現了事件和關係的聯合抽取，此處的關係指的是事件間的時序關係，事件間應該還有多種多樣的關係（比如邏輯關係），如何對這類關係進行抽取有待研究。

本文的一些細節還需要看附錄，我沒有閱讀附錄，日後如果有需要再進行精讀。

【論文解讀 EMNLP 2019】Joint Event and Temporal RE with Shared Representations and Structured Prediction

文章目錄

1 摘要

2 引言

3 聯合的事件-事件關係抽取模型

3.1 Neural SSVM

3.2 多任務的神經打分函數

3.3 MAP Inference

3.3.1 目標函數

3.3.2 限制

3.4 學習

4 實施細節

4.1 Baselines

4.2 端到端的事件時序關係抽取

5 實驗

6 總結

前端使用 Konva 實現可視化設計器（13）- 折線 - 最優路徑應用【思路篇】

fake news相關 2019-2020 五篇論文閱讀

【論文解讀 NIPS 2019 | GTNs】Graph Transformer Networks

【論文解讀 EMNLP 2018 | JMEE】Jointly Multiple EE via Attention-based Graph Information Aggregation

【論文解讀 arXiv 2020 | RA-GCN】Event Detection with Relation-Aware Graph Convolutional Networks

【轉載】關係抽取之遠程監督算法

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結