論文題目:Joint Event and Temporal Relation Extraction with Shared Representations and Structured Prediction
論文來源:EMNLP 2019 南加利福尼亞大學,伊利諾伊大學香檳分校
論文鏈接:https://www.aclweb.org/anthology/D19-1041/
關鍵詞:聯合學習,事件抽取,時序關係抽取,BERT,Bi-LSTM
文章目錄
1 摘要
本文解決的是事件和事件關係(本文研究的是時序關係)的聯合抽取任務。
本文的模型和現有的方法比較,有兩個優點:
(1)允許事件模塊和關係模塊共享相同的上下文嵌入和神經表示學習器,有助於事件表示的學習。
(2)採用聯合學習的方式,分配事件標籤和關係標籤,避免了傳統的pipeline方法誤差傳播的問題。
實驗顯示,本文提出的模型在EE和時序關係抽取任務上超越了state-of-the-art。
2 引言
(1)任務介紹
事件間的關係抽取是自然語言理解(NLU)中一項重要的任務,有助於處理多種下游任務,比如問答、信息檢索和敘述生成。
給定一個文本,該任務可以建模成一個圖,圖中的節點是事件,邊是相對應的關係。圖1 a就是一個例子,圖中的節點assassination, slaughtered, rampage, war, 和 Hutu都是候選的事件節點,不同類型的邊表示它們之間不同類型的關係。由於“Hutu”實際上不是一個事件,因此係統要能識別出“Hutu”和圖中其他節點的關係是NONE,也就是沒有關係。
(2)現有的方法
現有的方法都是使用pipeline的形式將這一任務分解成兩個子任務:事件抽取(EE)和關係分類,並且假定在訓練關係分類器時,給定了準確的事件。pipeline模型會將EE模塊中產生的誤差傳遞到關係分類器模塊。
(3)本文貢獻
1)第一個提出聯合學習的模型,同時抽取出事件和關係,如圖1 c所示。(受實體和關係聯合學習模型的啓發)
作者認爲,如果使用非事件節點間的NONE關係訓練關係分類器,則會有潛在的糾正EE錯誤的能力。以圖1 a爲例,如果關係分類器以高可信度預測間的關係爲NONE,這就爲事件分類器提供了一個很強的信號:Hutu和war中至少有一個不是事件節點。
2)通過在EE模塊和關係抽取模塊共享相同的上下文嵌入和神經表示學習器,改進了事件的表示。
本文的模型在共享的嵌入和神經表示學習器的基礎上,生成了圖結構的輸出,以表示給定句子中的所有事件和關係。
3)第一個使用神經的事件抽取器(neural event extractor)處理時序關係抽取,並證明了方法的有效性。(不是主要貢獻)
有效的圖預測應該滿足兩個結構上的限制:
1)若兩個節點中有任意一個不是事件,則它們間的關係應該是NONE;
2)圖中的關係指的是事件間的時序關係,所以不能有環。
通過求解一個帶有結構約束的整數線性規劃(ILP)優化問題,保證了圖的有效性。本文的聯合模型使用neural SSVM(structural support vector machines)以端到端的形式進行訓練。
3 聯合的事件-事件關係抽取模型
首先對本文的neural SSVM模型進行概述,然後對各個模塊進行詳細介紹:1)多任務的神經打分模塊;2)模型如何進行推斷和學習。
表示所有可能的關係標籤的集合(包括NONE),表示所有的候選事件節點集合,表示所有的候選關係。
3.1 Neural SSVM
模型架構如圖2所示:
損失函數爲:
- ;
- ;
- 表示模型參數;
- 表示實例的索引;
- ,表示實例中關係數量和事件數量的和;
- one-hot向量和分別表示實例中事件和事件間關係標籤的實際值和預測值。關係標籤:;實體標籤:;
- 表示真實值和預測值間的漢明距離;
- 超參數和用於權衡事件和關係的損失,以及正則損失;
- 是通過多任務的神經架構學習到的打分函數。
最大化後驗概率(MAP)得到,並形式化爲ILP問題,在3.3節中詳細介紹。
損失函數的訓練目標是最小化。
本文的neural SSVM和傳統的SSVM的區別在於打分函數。傳統的SSVM使用線性函數和人爲設計的特徵來計算分數;本文的nural SSVM使用RNN估計出打分函數,並端到端地進行訓練。
3.2 多任務的神經打分函數
RNN架構廣泛用於先前的時序關係抽取工作,RNN編碼了上下文信息。受這些工作的啓發,作者提出了基於RNN的打分函數,用於事件和事件間關係的預測,用數據驅動的方式學習到特徵,並捕獲到輸入中較長依賴的特徵。
如圖2所示,底層對應於使用預訓練模型BERT得到的詞表示,記爲。然後將其輸入到Bi-LSTM層中,進一步編碼特定任務的上下文的信息。事件抽取和事件間關係抽取任務共享這個Bi-LSTM層。
圖2中Bi-LSTM層後的左邊兩個分支,是將每個token前向和後向隱層向量直接拼接,用於事件打分函數的計算。
右邊兩個分支,對於每個候選事件對,分別得到兩個候選事件的前向和後向隱層向量,將它們和語言學特徵拼接起來作爲輸入,去計算關係標籤的概率分佈。
語言學特徵是從原始數據集中得到的簡單的特徵:token距離,時態,事件的極性。
表示候選的關係,表示候選的事件。
事件打分函數和關係打分函數就是基於RNN的打分函數,下一小節將進行介紹。
3.3 MAP Inference
在訓練過程中需要進行MAP inference,以得到損失函數中的;在測試時也需要進行MAP inference,以得到全局一致的結果。我們將這個推斷問題形式化爲一個ILP問題。
使用得到的局部分值並進行一些全局的限制,構建全局的目標函數,以形成推斷框架。全局的限制有:1)預測是單標籤的;2)事件-事件關係的一致性;3)對稱性和傳遞性。
3.3.1 目標函數
全局推斷的目標函數是找到概率最高的全局標籤分配,如下式所示:
- 是指示器,表示第個候選是否爲一個事件;
- 也是一個指示器,表示間是否預測有關係;
- 和分別是事件打分函數和關係打分函數;
- 是超參數
緊跟目標函數的一個限制是:對於所有的實體和關係,只能分別對其分配一個標籤。
3.3.2 限制
引入一些附加的限制以保證事件圖的有效性和合理性。
(1)事件-事件關係一致性
定義爲:輸入的一對tokens有正向的時序關係,當且僅當這兩個tokens都是事件節點。如下的全侷限制可以滿足這一性質:
其中表示事件的token,表示非事件的token;表示正向的關係:BEFORE, AFTER, SIMULTANEOUS, INCLUDES, IS_INCLUDED, VALUE;表示負向的關係,例如NONE。
這一屬性的證明見原文附錄A
(2)對稱性和傳遞性限制
作者還引入了關係的對稱性和傳遞性限制,規定如下:
對稱性表示如果將一個事件對的順序顛倒,則顛倒後的事件對的關係也應該顛倒。例如,若,則。
傳遞性表示,若圖中存在和,則的關係標籤應該由和決定。
3.4 學習
作者在實驗中直接對SSVM損失進行優化,但發現模型的性能卻下降了。
因此,作者使用了一個兩階段的學習方法,首先用pipeline的當時訓練聯合模型,不使用來自全局約束的反饋。也就是說,使用從事件模型的輸出直接構建出的候選關係以及真實的事件,形成交叉熵損失,以對局部的神經打分函數進行優化。
在第二個階段,使用式(1)中的全局SSVM損失函數,重新優化網絡以調整全局屬性。
在下一節中介紹更多細節。
4 實施細節
對baselines進行介紹,並介紹我們構建的端到端事件時序關係提取系統的4個模型,並重點介紹結構化的聯合模型。
4.1 Baselines
運行了兩個事件和關係抽取模型:在TB-Dense數據集上運行CAEVO模型,在MATRES數據集上運行CogCompTime模型。
這兩個方法都是基於人爲設計的特徵,使用傳統的學習算法進行優化,並且是pipeline的方式。
4.2 端到端的事件時序關係抽取
(1)單任務模型
構建一個端到端的系統,最基本的方法就是分別訓練事件檢測模型和關係預測模型。即圖2中的Bi-LSTM層不共享。
在驗證和測試階段,使用事件檢測模型的輸出構建出關係候選,並使用關係預測模型來進行最終的預測。
(2)多任務模型
Bi-LSTM層在兩個任務中共享,其他的和單任務模型一樣。
需要注意的是,單任務和多任務模型在訓練中都沒有直接處理NONE關係。它們都依賴於事件模型的預測來標註關係是正向的還是NONE。
(3)Pipeline聯合模型
模型架構和多任務模型一樣,區別在於pipeline的聯合模型在訓練階段,使用事件模型來構建關係候選,以用於訓練關係模型。
使用這一策略,在訓練階段若一個候選關係的元素不是事件,則會生成NONE對。這些NONE對會幫助關係模型分辨出正關係和負關係,從而增強對事件預測誤差的魯棒性。
作者採用的是:在訓練的前幾個epoch中,先使用真實的事件和關係候選,以得到相對準確的事件模型,然後再轉換到pipeline的版本。
(4)結構化的聯合模型
這一模型在第3節中有介紹。
但是,作者在直接使用SSVM損失對模型進行訓練時遇到了困難。這是由於有大量的非事件的token,模型在一開始不具備分辨出它們的能力。
因此,作者採用了兩階段(two-stage)的學習方法:先使用最佳的pipeline聯合模型,然後使用SSVM損失重新對模型進行優化。
爲了限制SSVM損失的ILP推斷中事件的搜索空間,作者使用了從事件檢測模型中得到的預測概率,對非事件進行過濾。
注意,結構化的聯合模型和pipeline模型有很大的不同。pipeline模型是先對事件進行預測,然後使用預測出的事件構建關係。這裏的結構化的聯合模型僅使用一個超參數來過濾掉高度不相關的候選事件。
事件標籤和關係標籤是在使用ILP進行全局推斷時同時分配的,如3.3節所述。
我們還會過濾掉有POS標籤的tokens(表示在訓練集中沒有出現過),因爲TB-Dense數據集中大多數的事件都是名詞或者動詞,MATRES數據集中所有的事件都是動詞。
5 實驗
(1)時序關係數據集
TB-Dense,MATRES
(2)實驗任務
事件抽取,事件時序關係抽取
(3)評價度量
- micro-average scores
- 排除了NONE和VAGUE對
兩種度量的可視化見附錄中的圖4
(4)實驗結果
本文的方法在兩個數據集上的實驗結果:
消融實驗對比結果:
6 總結
本文提出了一個端到端的事件時序關係抽取的系統。
作者提出了一個神經結構的預測模型,進行聯合的表示學習,以實現對事件和關係的同時預測。
聯合學習可以避免pipeline系統帶來的誤差傳播問題。
實驗證明了本文的模型可以使用端到端的方式,有效地處理事件時序關係抽取任務,並且在兩個數據集上實現了state-of-the-art。
未來工作:
(1)在事件和關係間構建更魯棒的結構化約束,比如考慮事件的類型,來提高使用ILP在全局進行標籤分配的質量。
(2)由於事件模型有助於關係的抽取,所以還可以考慮使用多個數據集來增強事件抽取系統的性能。
本文解決的任務是事件抽取和事件間時序關係的抽取。
本文的亮點在於:
(1)第一個提出了聯合學習的模型,同時處理上述的兩項任務。已有的對事件和關係進行抽取的任務都是pipeline形式的,這就會將事件抽取時產生的誤差帶到關係抽取模型中,並且這個誤差是在訓練關係抽取模型時不能優化的。已有一些研究,提出了對實體和關係進行聯合抽取的模型,本文的模型正是受這些工作的啓發而提出的。
(2)針對事件抽取和事件間時序關係的抽取兩個任務,使用了一層Bi-LSTM,實現了表示的共享,有助於兩個任務相互促進。
我認爲本文的不足之處在於:
(1)只是共享了第一層Bi-LSTM,沒有共享更深層的表示。DyGIE模型就針對這一問題,進行了改進。
(2)本文實現了事件和關係的聯合抽取,此處的關係指的是事件間的時序關係,事件間應該還有多種多樣的關係(比如邏輯關係),如何對這類關係進行抽取有待研究。
本文的一些細節還需要看附錄,我沒有閱讀附錄,日後如果有需要再進行精讀。