【論文解讀 EMNLP 2019】Joint Event and Temporal RE with Shared Representations and Structured Prediction

論文題目:Joint Event and Temporal Relation Extraction with Shared Representations and Structured Prediction

論文來源:EMNLP 2019 南加利福尼亞大學,伊利諾伊大學香檳分校

論文鏈接:https://www.aclweb.org/anthology/D19-1041/

關鍵詞:聯合學習,事件抽取,時序關係抽取,BERT,Bi-LSTM



1 摘要

本文解決的是事件事件關係(本文研究的是時序關係)的聯合抽取任務。

本文的模型和現有的方法比較,有兩個優點

(1)允許事件模塊和關係模塊共享相同的上下文嵌入和神經表示學習器,有助於事件表示的學習。

(2)採用聯合學習的方式,分配事件標籤和關係標籤,避免了傳統的pipeline方法誤差傳播的問題

實驗顯示,本文提出的模型在EE時序關係抽取任務上超越了state-of-the-art。


2 引言

(1)任務介紹

事件間的關係抽取是自然語言理解(NLU)中一項重要的任務,有助於處理多種下游任務,比如問答、信息檢索和敘述生成。

給定一個文本,該任務可以建模成一個圖,圖中的節點是事件邊是相對應的關係圖1 a就是一個例子,圖中的節點assassination, slaughtered, rampage, war, 和 Hutu都是候選的事件節點,不同類型的邊表示它們之間不同類型的關係。由於“Hutu”實際上不是一個事件,因此係統要能識別出“Hutu”和圖中其他節點的關係是NONE,也就是沒有關係。


(2)現有的方法

現有的方法都是使用pipeline的形式將這一任務分解成兩個子任務:事件抽取(EE)和關係分類,並且假定在訓練關係分類器時,給定了準確的事件。pipeline模型會將EE模塊中產生的誤差傳遞到關係分類器模塊。


(3)本文貢獻

1)第一個提出聯合學習的模型,同時抽取出事件和關係,如圖1 c所示。(受實體和關係聯合學習模型的啓發)

作者認爲,如果使用非事件節點間的NONE關係訓練關係分類器,則會有潛在的糾正EE錯誤的能力。以圖1 a爲例,如果關係分類器以高可信度預測(Hutu,war)(Hutu, war)間的關係爲NONE,這就爲事件分類器提供了一個很強的信號:Hutu和war中至少有一個不是事件節點。

2)通過在EE模塊和關係抽取模塊共享相同的上下文嵌入和神經表示學習器,改進了事件的表示。

本文的模型在共享的嵌入神經表示學習器的基礎上,生成了圖結構的輸出,以表示給定句子中的所有事件和關係。

3)第一個使用神經的事件抽取器(neural event extractor)處理時序關係抽取,並證明了方法的有效性。(不是主要貢獻)


有效的圖預測應該滿足兩個結構上的限制

1)若兩個節點中有任意一個不是事件,則它們間的關係應該是NONE

2)圖中的關係指的是事件間的時序關係,所以不能有環

通過求解一個帶有結構約束的整數線性規劃(ILP)優化問題,保證了圖的有效性。本文的聯合模型使用neural SSVM(structural support vector machines)以端到端的形式進行訓練。


3 聯合的事件-事件關係抽取模型

首先對本文的neural SSVM模型進行概述,然後對各個模塊進行詳細介紹:1)多任務的神經打分模塊;2)模型如何進行推斷和學習

R\mathcal{R}表示所有可能的關係標籤的集合(包括NONE),E\mathcal{E}表示所有的候選事件節點集合,EE\mathcal{EE}表示所有的候選關係


3.1 Neural SSVM

模型架構如圖2所示:

損失函數爲:

  • SˉEn=S(y^En;xn)S(yEn;xn)\bar{S}^n_{\mathcal{E}} = S(\hat{y}^n_{\mathcal{E}}; x^n) - S(y^n_{\mathcal{E}}; x^n)
  • SˉRn=S(y^Rn;xn)S(yRn;xn)\bar{S}^n_{\mathcal{R}} = S(\hat{y}^n_{\mathcal{R}}; x^n) - S(y^n_{\mathcal{R}}; x^n)
  • Φ\Phi表示模型參數;
  • nn表示實例的索引;
  • Mn=En+EEnM^n=|\mathcal{E}|^n + |\mathcal{EE}|^n,表示實例nn中關係數量和事件數量的和;
  • one-hot向量yny^ny^n\hat{y}^n分別表示實例nn中事件和事件間關係標籤的實際值和預測值。關係標籤:yRn,y^Rn{0,1}EEy^n_{\mathcal{R}}, \hat{y}^n_{\mathcal{R}}\in {\{0, 1}\}^{|\mathcal{EE}|};實體標籤:yEn,y^En{0,1}Ey^n_{\mathcal{E}}, \hat{y}^n_{\mathcal{E}}\in {\{0, 1}\}^{|\mathcal{E}|}
  • Δ(yn,y^n)\Delta(y^n, \hat{y}^n)表示真實值和預測值間的漢明距離;
  • 超參數CCCEC_{\mathcal{E}}用於權衡事件和關係的損失,以及正則損失;
  • S(yEn;xn),S(yRn;xn)S(y^n_{\mathcal{E}}; x^n), S(y^n_{\mathcal{R}}; x^n)是通過多任務的神經架構學習到的打分函數。

最大化後驗概率(MAP)得到y^n\hat{y}^n,並形式化爲ILP問題,在3.3節中詳細介紹。

損失函數的訓練目標是最小化Δ(yn,y^n)\Delta(y^n, \hat{y}^n)

本文的neural SSVM傳統的SSVM區別在於打分函數。傳統的SSVM使用線性函數和人爲設計的特徵來計算分數;本文的nural SSVM使用RNN估計出打分函數,並端到端地進行訓練


3.2 多任務的神經打分函數

RNN架構廣泛用於先前的時序關係抽取工作,RNN編碼了上下文信息。受這些工作的啓發,作者提出了基於RNN的打分函數,用於事件和事件間關係的預測,用數據驅動的方式學習到特徵,並捕獲到輸入中較長依賴的特徵。

圖2所示,底層對應於使用預訓練模型BERT得到的詞表示,記爲vkv_k。然後將其輸入到Bi-LSTM層中,進一步編碼特定任務的上下文的信息。事件抽取和事件間關係抽取任務共享這個Bi-LSTM層

圖2Bi-LSTM層後的左邊兩個分支,是將每個token前向和後向隱層向量直接拼接,用於事件打分函數的計算。

右邊兩個分支,對於每個候選事件對(i,j)(i, j),分別得到兩個候選事件的前向和後向隱層向量,將它們和語言學特徵Li,jL_{i, j}拼接起來作爲輸入,去計算關係標籤的概率分佈。

語言學特徵是從原始數據集中得到的簡單的特徵:token距離,時態,事件的極性。

(i,j)EE(i, j)\in \mathcal{EE}表示候選的關係,ii表示候選的事件。

事件打分函數和關係打分函數就是基於RNN的打分函數,下一小節將進行介紹。


3.3 MAP Inference

訓練過程中需要進行MAP inference,以得到損失函數中的y^n\hat{y}^n;在測試時也需要進行MAP inference,以得到全局一致的結果。我們將這個推斷問題形式化爲一個ILP問題。

使用得到的局部分值並進行一些全局的限制,構建全局的目標函數,以形成推斷框架。全局的限制有:1)預測是單標籤的;2)事件-事件關係的一致性;3)對稱性和傳遞性


3.3.1 目標函數

全局推斷的目標函數是找到概率最高的全局標籤分配,如下式所示:

  • ykey^e_k是指示器,表示第kk個候選是否爲一個事件;
  • yi.jry^r_{i. j}也是一個指示器,表示(i,j)(i, j)間是否預測有關係rRr\in R
  • S(yke,x),e{0,1}S(y^e_k, x), \forall e\in {\{0, 1}\}S(yi,jr,x),rRS(y^r_{i, j}, x), \forall r\in R分別是事件打分函數和關係打分函數;
  • CEC_{\mathcal{E}}是超參數

緊跟目標函數的一個限制是:對於所有的實體和關係,只能分別對其分配一個標籤。


3.3.2 限制

引入一些附加的限制以保證事件圖的有效性和合理性

(1)事件-事件關係一致性

定義爲:輸入的一對tokens有正向的時序關係,當且僅當這兩個tokens都是事件節點。如下的全侷限制可以滿足這一性質:

其中eiPe^P_i表示事件的token,eiNe^N_i表示非事件的token;ri,jPr^P_{i, j}表示正向的關係:BEFORE, AFTER, SIMULTANEOUS, INCLUDES, IS_INCLUDED, VALUE;ri,jNr^N_{i, j}表示負向的關係,例如NONE。

這一屬性的證明見原文附錄A

(2)對稱性和傳遞性限制

作者還引入了關係的對稱性和傳遞性限制,規定如下:

對稱性表示如果將一個事件對的順序顛倒,則顛倒後的事件對的關係也應該顛倒。例如,若ri,j=BEFOREr_{i, j}=BEFORE,則rj,i=AFTERr_{j, i}=AFTER

傳遞性表示,若圖中存在(i,j),(j,k)(i, j), (j, k)(i,k)(i, k),則(i,k)(i, k)的關係標籤應該由(i,j)(i, j)(j,k)(j, k)決定。


3.4 學習

作者在實驗中直接對SSVM損失進行優化,但發現模型的性能卻下降了

因此,作者使用了一個兩階段的學習方法,首先用pipeline的當時訓練聯合模型,不使用來自全局約束的反饋。也就是說,使用從事件模型的輸出直接構建出的候選關係以及真實的事件,形成交叉熵損失,以對局部的神經打分函數進行優化

第二個階段,使用式(1)中的全局SSVM損失函數,重新優化網絡以調整全局屬性。

在下一節中介紹更多細節。


4 實施細節

對baselines進行介紹,並介紹我們構建的端到端事件時序關係提取系統的4個模型,並重點介紹結構化的聯合模型。

4.1 Baselines

運行了兩個事件和關係抽取模型:在TB-Dense數據集上運行CAEVO模型,在MATRES數據集上運行CogCompTime模型。

這兩個方法都是基於人爲設計的特徵,使用傳統的學習算法進行優化,並且是pipeline的方式。


4.2 端到端的事件時序關係抽取

(1)單任務模型

構建一個端到端的系統,最基本的方法就是分別訓練事件檢測模型關係預測模型。即圖2中的Bi-LSTM層不共享

驗證和測試階段,使用事件檢測模型的輸出構建出關係候選,並使用關係預測模型來進行最終的預測。


(2)多任務模型

Bi-LSTM層在兩個任務中共享,其他的和單任務模型一樣。

需要注意的是,單任務和多任務模型在訓練中都沒有直接處理NONE關係。它們都依賴於事件模型的預測標註關係是正向的還是NONE。


(3)Pipeline聯合模型

模型架構和多任務模型一樣,區別在於pipeline的聯合模型在訓練階段,使用事件模型來構建關係候選,以用於訓練關係模型

使用這一策略,在訓練階段若一個候選關係的元素不是事件,則會生成NONE對。這些NONE對會幫助關係模型分辨出正關係和負關係,從而增強對事件預測誤差的魯棒性。

作者採用的是:在訓練的前幾個epoch中,先使用真實的事件和關係候選,以得到相對準確的事件模型,然後再轉換到pipeline的版本


(4)結構化的聯合模型

這一模型在第3節中有介紹。

但是,作者在直接使用SSVM損失對模型進行訓練時遇到了困難。這是由於有大量的非事件的token,模型在一開始不具備分辨出它們的能力

因此,作者採用了兩階段(two-stage)的學習方法:先使用最佳的pipeline聯合模型,然後使用SSVM損失重新對模型進行優化

爲了限制SSVM損失的ILP推斷中事件的搜索空間,作者使用了從事件檢測模型中得到的預測概率,對非事件進行過濾。

注意,結構化的聯合模型和pipeline模型有很大的不同。pipeline模型是先對事件進行預測,然後使用預測出的事件構建關係。這裏的結構化的聯合模型僅使用一個超參數TevtT_{evt}來過濾掉高度不相關的候選事件


事件標籤和關係標籤是在使用ILP進行全局推斷時同時分配的,如3.3節所述。

我們還會過濾掉有POS標籤的tokens(表示在訓練集中沒有出現過),因爲TB-Dense數據集中大多數的事件都是名詞或者動詞,MATRES數據集中所有的事件都是動詞。


5 實驗

(1)時序關係數據集

TB-Dense,MATRES

(2)實驗任務

事件抽取,事件時序關係抽取

(3)評價度量

  • micro-average scores
  • 排除了NONE和VAGUE對

兩種度量的可視化見附錄中的圖4

(4)實驗結果

本文的方法在兩個數據集上的實驗結果:

消融實驗對比結果:


6 總結

本文提出了一個端到端的事件時序關係抽取的系統。

作者提出了一個神經結構的預測模型,進行聯合的表示學習,以實現對事件和關係的同時預測。

聯合學習可以避免pipeline系統帶來的誤差傳播問題。

實驗證明了本文的模型可以使用端到端的方式,有效地處理事件時序關係抽取任務,並且在兩個數據集上實現了state-of-the-art。

未來工作

(1)在事件和關係間構建更魯棒的結構化約束,比如考慮事件的類型,來提高使用ILP在全局進行標籤分配的質量。

(2)由於事件模型有助於關係的抽取,所以還可以考慮使用多個數據集來增強事件抽取系統的性能。


本文解決的任務是事件抽取事件間時序關係的抽取

本文的亮點在於:

(1)第一個提出了聯合學習的模型,同時處理上述的兩項任務。已有的對事件和關係進行抽取的任務都是pipeline形式的,這就會將事件抽取時產生的誤差帶到關係抽取模型中,並且這個誤差是在訓練關係抽取模型時不能優化的。已有一些研究,提出了對實體和關係進行聯合抽取的模型,本文的模型正是受這些工作的啓發而提出的。

(2)針對事件抽取和事件間時序關係的抽取兩個任務,使用了一層Bi-LSTM,實現了表示的共享,有助於兩個任務相互促進。

我認爲本文的不足之處在於:

(1)只是共享了第一層Bi-LSTM,沒有共享更深層的表示。DyGIE模型就針對這一問題,進行了改進。

(2)本文實現了事件和關係的聯合抽取,此處的關係指的是事件間的時序關係,事件間應該還有多種多樣的關係(比如邏輯關係),如何對這類關係進行抽取有待研究。

本文的一些細節還需要看附錄,我沒有閱讀附錄,日後如果有需要再進行精讀。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章