【論文解讀 EMNLP 2019 | DyGIE++】Entity, Relation, and EE with Contextualized Span Representations

論文題目:Entity, Relation, and Event Extraction with Contextualized Span Representations

論文來源:EMNLP 2019 華盛頓大學, Google AI Language

論文鏈接:https://www.aclweb.org/anthology/D19-1585/

代碼鏈接:https://github.com/dwadden/dygiepp

關鍵詞:命名實體識別,關係抽取,事件抽取,BERT,圖傳播



這篇文章是基於[1]的,文章並沒有講太多細節,讀起來不是很透徹,後續會閱讀文獻[1]。
文獻[1]提出了DyGIE框架,論文解讀見:https://blog.csdn.net/byn12345/article/details/105670780

1 摘要

本文提出了DyGIE++模型,通過對捕獲了局部信息(句內)全局信息(跨句)text spans進行枚舉、精煉、打分,可以處理命名實體識別(NER)、關係抽取(RE)和事件抽取(EE)共3種信息抽取(IE)任務。

4個數據集上進行實驗,本文的模型在3種信息抽取任務上均實現了state-of-the-art

作者進行了實驗對比了不同的構建span表示的方法,和上下文相關的方法例如BERT,捕獲了同一句子或相鄰句子中的實體關係,表現較好。


2 引言

整合全局的(跨句)信息非局部的短語間的依賴信息,有助於進行信息抽取任務(NER, RE, EE, 共指消解)。例如,共指關係的知識有助於對分類困難的實體進行分類。在事件抽取(EE)任務中,句中實體的信息有助於事件觸發詞的預測。

爲了建模全局的上下文信息,先前的工作使用pipeline模型來抽取句法特徵、篇章特徵其他人爲設計的特徵作爲預測模型的輸入,並使用了神經網絡作爲打分函數。近期的端到端的方法通過動態地構建span組成的圖(圖中的邊對應於特定任務的關係),實現了很好的效果。

與此同時,基於上下文的語言模型在許多自然語言處理任務中均取得了成功。這些模型有的突破了句子邊界的限制,對上下文進行了建模。例如,BERT中transformer架構的注意力機制可以捕獲相鄰句子的tokens間的關係。


本文基於先前的span-based信息抽取(IE)方法[1],研究了多種方法,將全局的上下文信息整合成統一的處理多任務的IE框架DyGIE++。模型結構如圖1所示,枚舉候選的text spans並使用基於上下文的語言模型對其編碼,然後在text span圖上進行特定任務的消息更新。


3 任務和模型

本文的DyGIE++框架對span-based模型進行擴展,以用於實體抽取和關係抽取:(1)將EE作爲附加任務,並在連接了事件觸發詞和其元素(arguments)的圖上進行span的更新傳播;(2)在多句BERT編碼的頂部構建span的表示


3.1 任務定義

輸入是一個文檔,表示成tokens的序列DD,本文的模型根據這一序列構建了spans S={s1,...,sT}S={\{s_1, ..., s_T}\},是文檔中所有可能短語的集合

(1)命名實體識別

對每個span sis_i預測最合適的實體類型標籤eie_i

(2)關係抽取

爲所有的span pairs (si,sj)(s_i, s_j)預測最佳的關係類型rijr_{ij}

對於本文使用的所有數據集,這裏的關係針對的是在同一句子中的spans的關係。

(3)共指消解

對每個span sis_i預測出最合適的指稱前件(coreference antecedentcic_i

將共指消解任務作爲一個輔助任務,用來提升用於3個主要任務的表示。

(4)事件抽取

涉及對命名實體、事件觸發詞、事件元素以及元素角色的預測。

爲每個token did_i分配一個標籤tit_i,以進行事件觸發詞的預測。

對於每個觸發詞did_i,通過對所有的和did_i在同一句子中的spans sjs_j的元素角色aija_{ij}進行預測,來爲事件觸發詞did_i分配事件元素。

使用預測的實體作爲候選的事件元素。


3.2 DyGIE++架構

圖1展示DyGIE++模型架構的4個組成部分,更多細節見文獻[1]。

(1)Token embedding

使用BERT滑動窗口對token進行編碼,將每個句子和該句周圍距離LL範圍內的鄰居輸入到BERT。

(2)Span enumeration

通過拼接表示左邊和右邊endpoints的tokens以及學習到的span width embedding,進行文本spans的枚舉和構建。

(3)Span graph propagation

圖結構是基於模型當前對於文檔中spans間關係的最佳預測動態構建的。

每個span的表示gjtg^t_j是通過整合圖中其鄰居的span表示,並根據關係傳播、事件傳播共指傳播3種圖傳播的變型方法,進行更新的。

1)在共指傳播中,span在圖中的鄰居是它可能的共指前件(coreference antecedents);

2)在關係傳播中,鄰居是在句子中和其相關的實體;

3)在事件傳播中,鄰居是事件觸發詞節點和事件元素角色節點,觸發詞節點向其可能的元素節點傳遞消息,元素節點也反過來向其可能的觸發詞節點傳遞消息。


整個過程是端到端的,模型同時學習如何識別spans間重要的連接以及如何在這些spans間共享信息

在每次迭代過程tt中,模型爲span stRds^t\in \mathbb{R}^d生成更新的uxt(i)\mathbf{u}^t_x(i)

其中\odot表示元素級別的相乘;Vxt(i,j)V^t_x(i, j)是計算spans iijj針對任務xx的相似度。

最終通過計算先前表示和當前更新的凸組合,並使用門函數賦予不同權重,得到更新後的span表示gjt+1g^{t+1}_j


(4)多任務分類

將上下文的表示作爲打分函數的輸入,針對每個任務進行預測。使用2層的前向神經網絡(FFNN)作爲打分函數。

針對span gig_i觸發詞預測命名實體預測,計算FFNNtask(gi)FFNN_{task}(g_i)的值。

對於關係預測元素角色預測,拼接相關的嵌入對,計算FFNNtask([gi,gj])FFNN_{task}([g_i, g_j])的值。


4 實驗

(1)數據集

ACE05, SciERC, GENIA, WLPC

(2)本文模型的變形

  • BERT + LSTM:將預訓練的BERT的嵌入輸入到Bi-LSTM層中;
  • BERT Finetune:針對目標任務使用有監督的微調的BERT。

針對每個變形,研究使用不同的針對特定任務的傳播方法的有效性。

(3)實驗結果

State-of-the-art Results:

表2展示了共指傳播(CorefProp)增強了命名實體識別的性能。

表3展示了關係傳播(RelProp)在預訓練的BERT上增強了關係抽取的性能,但在fine-tuned的BERT上沒有增強性能。這是因爲所有的關係都是在一個句子內的,因此BERT可以很好地建模這些關係。

表4展示了事件抽取的結果,可以看出最佳的結果沒有利用到任何的傳播技術。作者認爲事件傳播沒有起到作用是因爲觸發詞和元素間的關係不是對稱的。建模元素和觸發詞間高階的交互關係作爲未來的研究任務。

表6展示了兩個變形的BERT模型在不同大小的上下文窗口設置下的結果。可以看出句子的窗口大小爲3時,在所有關係抽取和事件抽取任務上表現效果最好。


5 總結

本文提出有效的且易於實施的IE(信息抽取)框架DyGIE++,可以用於多個IE任務

文章研究了BERT嵌入圖傳播方法針對IE任務,捕獲上下文相關性的能力。研究表明,同時使用這兩個方法比分別單獨使用其中的一個效果要更好。BERT建模了有魯棒性的多個句子的表示,圖傳播方法利用了和問題以及領域相關的結構關聯。

未來工作:將這一框架擴展到其他的NLP任務中;研究其他方法,建模和EE有關的高階的交互信息


表4中可以看出,對於事件抽取任務,不使用事件傳播,模型的表現更好。作者認爲事件傳播沒有起到作用是因爲觸發詞和元素間的關係不是對稱的。如何建模元素和觸發詞間高階的交互關係仍需要繼續研究。


參考文獻

[1] Yi Luan, Dave Wadden, Luheng He, Amy Shah, Mari Ostendorf, and Hannaneh Hajishirzi. 2019. A general framework for information extraction using dynamic span graphs. In NAACL-HLT.

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章