【PaperReading】GraphIE:A Graph-Based Framework for Information Extraction

GraphIE:A Graph-Based Framework for Information Extraction

GraphIE:基於圖的信息提取框架

Yujie Qian,Enrico Santus,Zhijing Jin,Jiang Guo,Regina Barzilay

Abstract
Most modern Information Extraction (IE) systems are implemented as sequential taggers and only model local dependencies. Non-local and non-sequential context is, however, a valuable source of information to improve predictions. In this paper, we introduce GraphIE, a framework that operates over a graph representing a broad set of dependencies between textual units (i.e. words or sentences). The algorithm propagates information between connected nodes through graph convolutions, generating a richer representation that can be exploited to improve word-level predictions. Evaluation on three different tasks — namely textual, social media and visual information extraction — shows that GraphIE consistently outperforms the state-of-the-art sequence tagging model by a significant margin.
摘要
大多數現代信息提取(IE)系統都實現爲順序標記器,並且僅對本地依賴項進行建模。 但是,非本地和非順序上下文是改進預測的有價值的信息來源。 在本文中,我們介紹了GraphIE,這是一個在表示代表文本單位(即單詞或句子)之間廣泛依賴關係的圖形的框架上運行。 該算法通過圖卷積在連接的節點之間傳播信息,從而生成更豐富的表示形式,可以用來改善單詞級別的預測。 對三個不同任務(即文本,社交媒體和視覺信息提取)的評估表明,GraphIE在性能上一直明顯領先於最新的序列標記模型。

源碼下載地址https://github.com/thomas0809/GraphIE

Introduce

大多數現代信息提取(IE)系統都實現爲順序標記器。 儘管此類模型有效地捕獲了本地上下文中的關係,但它們利用非本地和非順序依賴項的能力有限。 但是,在許多應用程序中,此類依賴性可以大大降低標記的歧義性,從而提高整體提取性能。 例如,當從文檔中提取實體時,各種類型的非本地上下文信息(例如共同引用和相同的提及)可能會提供有價值的線索。 例如,請參見圖1,其中非本地關係對於區分第二次提及華盛頓的實體類型(即人或地點)至關重要。
圖1:基於一個實體提及模糊的實體提取任務示例
圖1:一個不明確的實體提及情況的實體抽取任務示例(即,“…爲華盛頓的請求…”)。 除了整合局部上下文信息的前向和後向邊(綠色,純色)以外,非局部關係(例如,共同指向邊(紅色,虛線)和相同提及邊(藍色,虛線))還提供了其他有價值的信息,以減少標記的歧義(即PERSON、ORGANIZATION或LOCATION)。

以往大多數研究非本地依賴關係的工作都是通過在結構化預測框架中約束輸出空間來將它們合併的(Finkel等人,2005; Reichart和Barzilay,2012; Hu等人,2016)。但是,這些方法大多忽略了輸入空間中更豐富的結構關係集。 參考圖1中的示例,通過簡單地限制輸出空間將不容易利用共指關係,因爲它們不一定被標記爲實體(例如代詞)。爲了捕獲輸入空間中的非本地依賴關係,替代方法定義了一個圖,該圖概述了輸入結構並描述了其特徵(Quirk and Poon,2017)。然而,設計有效的特徵是具有挑戰性的,任意的和費時的,尤其是當基礎結構複雜時。而且,這些方法具有有限的捕獲由圖結構告知的節點交互的能力。

在本文中,我們提出了GraphIE,該框架可通過自動學習輸入空間中本地和非本地依賴項之間的交互來改善預測。 我們的方法將圖形模塊與編碼器-解碼器體系結構集成在一起,以進行序列標記。 該算法在圖上運行,其中節點對應於文本單位(即單詞或句子),而邊描述它們之間的關係。 在我們模型的核心部分,遞歸神經網絡順序編碼局部上下文表示,然後圖模塊使用圖卷積在相鄰節點之間迭代地傳播信息(Kipf和Welling,2016)。 最後,將學習到的表示形式投影回循環解碼器,以支持單詞級別的標記

我們評估GraphIE的三個IE任務,即文本,社交媒體和視覺(Aumann等,2006)信息提取。對於每個任務,我們在輸入中提供一個簡單的特定於任務的圖形,該圖形定義了數據結構,而無需訪問任何主要處理或外部資源。我們的模型有望從相關的依賴中學習,以識別和提取適當的信息。在多個基準數據集上的實驗結果表明,GraphIE始終勝過強大且通常採用的順序模型(SeqIE,即雙向長短期記憶(BiLSTM)和條件隨機字段(CRF)模塊)。具體而言,在文本IE任務中,我們在CONLL03數據集上比SeqIE改進了0.5%,在化學實體提取方面改進了1.4%(Krallinger等人,2015)。在社交媒體IE任務中,在從Twitter用戶提取教育屬性時,GraphIE比SeqIE提高了3.7%。最後,在可視化IE中,我們的表現優於基準1.2%。

Related Work

在文獻中已經廣泛研究了結合非局部和非順序上下文以改善信息提取的問題。 大多數方法都集中於通過各種機制(例如後驗正則化或泛化期望)在推理過程中對輸出空間實施約束(Finkel et,2005; Mann和McCallum,2010; Reichart和Barzilay,2012; Li et al,2013; Hu et al. 2016)。

捕獲輸入空間中非本地依賴性的研究主要依賴於基於特徵的方法。 Roberts(2008)以及Swampillai和Stevenson(2011)設計了基於話語和句法依存關係(例如最短路徑)的句子內和句子間功能,以改善關係提取。 Quirk和Poon(2017)使用文檔圖來靈活表示單詞之間的多種關係(例如句法,鄰接和語篇關係)。

基於圖的表示也可以通過神經網絡來學習。 與我們最相關的工作是Kipf和Welling(2016)的圖卷積網絡,該網絡被開發用於編碼圖結構並執行節點分類。 在我們的框架中,我們將GCN用作學習非本地上下文的中間模塊,而不是直接用於分類,而是將其投影到解碼器以豐富本地信息並執行序列標記

少數其他信息提取方法已使用基於圖的神經網絡。 Miwa和Bansal(2016)應用Tree LSTM(Tai et al,2015)共同表示序列和依賴樹,以進行實體和關係提取。在同一工作中,Peng(2017)和Song(2018)引入了Graph LSTM,它通過在每個存儲單元中啓用不同數量的輸入邊來將傳統LSTM擴展到圖。張(2018)利用圖卷積在經過修剪的依賴關係樹上合併信息,在關係提取任務中勝過現有序列和基於依賴關係的神經模型。這些研究在幾個方面與我們的研究有所不同。首先,他們只能爲單詞級圖建模,而我們的框架可以從單詞級或句子級圖中學習非本地上下文,並使用它來減少單詞級標記時的歧義。其次,所有這些研究僅在使用依賴樹時纔得到改進。我們擴展了基於圖的方法,以驗證在更廣泛的任務中使用其他類型的關係的好處,例如命名實體識別中的共指社交媒體中的後續鏈接以及可視信息提取中的佈局結構

Problem Definition

我們將信息提取形式化爲序列標記問題。 我們假設不是簡單地將輸入建模爲序列,而是假設數據中存在一種圖形結構,可以利用該結構捕獲文本單位(即單詞或句子)之間的非局部和非順序依賴性

我們考慮輸入是一組句子S={s1,...,sN}S=\{s_1,...,s_N\},和一個輔助圖G=(V,E)G=(V,E),其中V={v1,...,vM}V=\{v_1,...,v_M\}是節點集,EV×VE\subset V\times V是邊集合。每個句子是單詞的一個序列,我們考慮兩種不同的圖的設計
(1)sentence-level graph:其中每個節點是一個句子(即M=NM=N),並且邊編碼了句子的相關性;
(2)word-level graph:每個節點是一個單詞(即M是輸入的單詞的數量,邊連接成對的單詞,例如共同指代標記)。

圖中的邊ei,j=(vi,vj)e_{i,j}=(v_i,v_j)既可以是有向的也可以是無向的。還可以定義多種邊類型,以捕獲特定於任務的輸入數據的不同結構因素。

本文中,我們使用BIO(Begin,Inside,Outside)的標記方案。例如句子si=(w1(i),w2(i),...,wk(i))s_i=(w_{1}^{(i)},w_{2}^{(i)},...,w_{k}^{(i)})(雖然句子的長度可能不同,但爲了簡化符號,我們使用單個變量k),我們依次將每個單詞標記爲yi=(y1(i),y2(i),..,yk(i))y_i=(y_1^{(i)},y_2^{(i)},..,y_k^{(i)})

Method

GraphIE通過在節點表示之間迭代傳播信息來共同學習局部和非局部依賴性。 我們的模型包含三個組成部分:

  • an encoder, 它使用遞歸神經網絡爲文本單元(即單詞或句子,取決於任務)生成本地上下文感知的隱藏表示。
  • a graph module,捕獲圖結構,學習文本單元之間的非局部和非順序依賴性;
  • a decoder,利用由圖模塊生成的上下文信息來在單詞級別執行標記。

圖2展示了GraphIE的概述以及句子級和單詞級圖的模型架構。 在以下各節中,我們首先介紹句子級圖的情況,然後說明如何針對詞級圖調整模型。
GraphIE架構圖
圖2:GraphIE框架: (a)框架總覽; (b)句子級圖的體系結構,其中每個句子被編碼爲節點向量並饋入圖模塊,圖模塊的輸出用作解碼器的初始狀態; ©詞級圖的體系結構,其中將編碼器每個字的隱藏狀態作爲圖模塊的輸入節點向量,然後將輸出饋送到解碼器。

Encoder

在GraphIE中,我們首先使用一個編碼器去生成文本表示。給定一個長度爲k的句子si=(w1(i),w2(i),...,wk(i))s_i=(w_1^{(i)},w_2^{(i)},...,w_k^{(i)}),每個單詞wt(i)w_t^{(i)}由一個向量xt(i)x_t^{(i)}來表示,這是其單詞嵌入和通過字符級卷積神經網絡學習的特徵向量的串聯(CharCNN; Kim等人(2016))。 我們使用遞歸神經網絡(RNN)對句子進行編碼,將其定義爲:
h1:ki=RNN(x1:k(i);0,enc)..........................................................................(1)h_{1:k}^{i}=RNN(x_{1:k}^{(i)};0,\ominus _{enc})..........................................................................(1)
其中xl,k(i)x_{l,k}^{(i)}表示輸入句子[x1(i),...,xk(k)][x_{1}^{(i)},...,x_k^{(k)}]h1:k(i)h_{1:k}^{(i)}表示隱藏狀態[hi(i),..,hk(i)][h_i^{(i)},..,h_k^{(i)}],0表明初始隱狀態是0,並且enc\ominus_{enc}表示編碼器參數。我們將RNN實現爲雙向LSTM(Hochreiter和Schmidhuber,1997),並對每個句子進行獨立編碼。

對於句子sis_i,我們通過平均其單詞的隱狀態來獲得句子表示,即Enc(si)=1k(t=1k(ht(i)))Enc(s_i)=\frac{1}{k}(\sum_{t=1}^{k}(h_{t}^{(i)}))。然後將這個句子的表示饋入圖模塊。

Graph Module

圖模塊旨在從圖中學習非局部和非等值信息。 我們採用圖卷積網絡(GCN)來對圖上下文進行建模以進行信息提取。

給定一個句子級圖G=(V,E)G=(V,E),其中每個節點viv_i(即,句子sis_i)編碼爲Enc(si)Enc(s_i),用以捕獲局部信息,圖模塊利用從圖結構導出的鄰接信息來豐富這種表示。

我們的圖形模塊是一個GCN,它以句子表示爲輸入,即gi(0)=Enc(si)g_i^{(0)}=Enc(s_i),並在每個節點上進行圖卷積,在其相鄰節點之間傳播信息,並將這些信息整合爲新的隱藏表示。具體來說,GCN的每一層都有兩個部分。 第一部分從上一層獲取每個節點的信息,即
αi(l)=Wv(l)gi(l1)..................................................................................(2)\alpha_i^{(l)}=W_v^{(l)}g_i^{(l-1)}..................................................................................(2)
其中,Wv(l)W_v^{(l)}是學習到的權重,第二部分彙總來自每個節點鄰居的信息,即對於節點viv_i,我們有
βi(l)=1d(vi)We(l)(ei,jEgj(l1))...................................(3)\beta_i^{(l)}=\frac{1}{d(v_i)} \cdot W_e^{(l)}(\sum_{e_{i,j}\in E}^{}g_j^{(l-1)})...................................(3)
其中,d(vi)d(v_i)是節點viv_i的度(即連接到viv_i的邊的數量),並且被用於歸一化βi(l)\beta_i^{(l)},確保不同度的節點具有相同比例的表示(我們選擇這種簡單的歸一化策略,而不是Kipf和Welling(2016)中的雙面歸一化,因爲它在實驗中表現更好。 Zhang等人也採用了相同的策略(2018))。在最簡單的情況下,圖形中的邊是無向的並且具有相同的類型,對於它們,我們使用相同的權重We(l)W_e^(l)。在更普遍的情況下,如果存在多種邊類型,我們希望它們對聚合產生不同的影響。因此,我們使用等式3中的方法使用不同的權重對這些邊類型進行建模,類似於Schlichtkrull等人(2018)提出的關聯GCN模型。當邊是有向的,即邊ei,je_{i,j}不同於邊ej,ie_{j,i},傳播機制應該反映出這種差異。在這種情況下,我們把有向邊視爲兩種邊類型(前向和後向),並且對於它們使用不同的權重。

最後,αi(l)\alpha_i^{(l)}βi(l)\beta_i^{(l)}被合併以獲得第ll層的表示,
gi(l)=σ(αi(l)+βi(l)+b(l))........................................................(4)g_i^{(l)}=\sigma(\alpha_i^{(l)}+\beta_i^{(l)}+b^{(l)})........................................................(4)
其中σ()\sigma(\cdot)是一個非線性激活函數,b(l)b^{(l)}是一個偏差參數。

由於每一層僅僅在直接相連的節點之間傳播信息,我們可以堆疊多個圖卷積層以獲得更大的接收域,即每個節點可以知道更遠的鄰居。經過LL層,對於每個節點viv_i,我們獲得一個上下文表示,GCN(si)=gi(L)GCN(s_i)=g_i^{(L)},即同時捕獲局部和非局部的信息。

Decoder

爲了支持標記,將學習到的表示傳播到解碼器。
在我們的工作中,解碼器被實例化爲BiLSTM+CRF標記器(Lample et al, 2016)。圖形模塊的輸出表示GCN(si)GCN(s_i),分爲了兩個相同長度的向量,分別用作前向和後向LSTM的初始隱藏狀態。這樣,圖上下文信息通過LSTM傳播到每個單詞。具體地,我們有
z1:k(i)=RNN(h1:k(i);GCN(si),dec).........................................................(5)z_{1:k}^{(i)}=RNN(h_{1:k}^{(i)};GCN(s_i), \ominus_{dec}).........................................................(5)
其中h1:k(i)h_{1:k}^{(i)}是編碼器的輸出隱狀態。GCN(si)GCN(s_i)代表初始狀態,dec\ominus_{dec}是解碼器的參數。將圖形表示形式合併到解碼器中的一種更簡單的方法是將其表示與輸入連接,但是經驗性能比用作初始狀態要差。

最後,我們在BiLSTM的頂部使用CRF層(Lafferty等,2001)進行標記。
yi=argmaxyYkp(yz1:k(i);crf)...........................................................(6)y_i^*=arg max_{y\in Y_k} p(y|z_{1:k}^{(i)};\ominus_{crf})...........................................................(6)
其中,YkY_k是長度爲k的所有可能標籤序列的集合,crf\ominus_{crf}表示CRF參數,即標籤的轉換分數。CRF結合了BiLSTM的局部預測和轉換分數來對標籤序列的聯合概率建模(在GraphIE中,圖模塊對輸入空間結構進行建模,即對文本單元(即句子或單詞)之間的依賴關係進行建模,最後的CRF層對輸出標籤的順序連接進行建模。 即使輸入圖中可能存在循環,CRF仍會順序運行,因此推理很容易。)。

Adaptation to Word-level Graphs

GraphIE可以輕鬆地用於對詞級圖進行建模。 在這種情況下,節點代表輸入中的單詞,即節點的數量M等於N個句子中單詞的總數。此時,編碼器中每個單詞的隱藏狀態都可以用作圖模塊的輸入節點向量gi(0)g_i^{(0)}。然後,GCN可以在單詞級圖上進行圖卷積,併爲單詞生成圖上下文表示。 最後,解碼器直接在GCN的輸出上運行,即我們將BiLSTM解碼器更改爲
z1:k(i)=RNN([GCN(w1(i)),...,GCN(wk(i))];0;dec)z_{1:k}^{(i)}=RNN([GCN(w_1^{(i)}),...,GCN(w_k^{(i)})];0;\ominus_{dec})
其中KaTeX parse error: Expected '}', got 'EOF' at end of input: GCN_{w_t^{(i)}是單詞wt(i)w_t^{(i)}的GCN輸出。在這種情況下,BiLSTM初始化狀態被設置爲默認0向量。CRF層保持不變。

從圖2©中可以看出,單詞級圖模塊與句子級模塊不同,因爲它直接從編碼器獲取單詞表示並將其輸出饋送到解碼器。 在句子級圖中,GCN對句子表示進行操作,然後將其用作解碼器BiLSTM的初始狀態。

Experimental Setup

我們在三個任務上評估該模型,其中包括兩個傳統的IE任務,即文本信息提取和社交媒體信息提取,以及一個未充分探索的任務——視覺信息提取。 對於這些任務中的每一項,我們創建了一個簡單的特定於任務的圖形拓撲,旨在輕鬆捕獲輸入數據的基礎結構,而無需進行任何重大處理。 表1概述了這三個任務。
用於評估的三個IE任務中圖形結構的比較。表1:用於評估的三個IE任務中圖結構的比較。

Task 1:Textual Information Extraction

在此任務中,我們專注於話語級別的命名實體識別(DiscNER)。 與傳統的句子級NER(SentNER)(分別對句子進行處理)不同,在DiscNER中,跨句子的長依賴關係和約束在標記過程中起着至關重要的作用。 例如,期望在同一對話中對同一實體的多次提及被一致地標記。 在這裏,我們建議使用此(軟)約束來改善實體提取。
數據集 我們對兩個NER數據集進行了實驗:CoNLL-2003數據集(CONLL03)(Tjong等人,2003年)和CHEMDNER數據集
用於化學實體提取(Krallinger et al。2015)。 我們遵循每個語料庫的標準劃分。 統計信息如表2所示。
CONLL03和CHEMDNER數據集的統計信息(任務1)。
表2:CONLL03和CHEMDNER數據集的統計信息(任務1)

圖構建 在此任務中,我們使用單詞級圖,其中節點表示單詞。 我們爲每個文檔創建兩種類型的邊:

  • 局部邊(Local edges):在每個句子中相鄰單詞之間創建前向和後向邊,從而可以利用局部上下文信息。
  • 非局部邊(Non-local edges):連接了除停用詞以外的相同token的重複出現,以便可以傳播信息,從而促進標籤的全局一致性。(注意,可以使用其他非局部關係(例如,共同引用)(參見圖1中的示例)進行進一步的改進。 但是,這些關係需要額外的資源才能獲得,我們將其留給以後的工作。)

Task 2:Social Media Information Extraction

社交媒體信息提取是指從在線社交網絡中的用戶帖子中提取信息的任務(Benson等,2011; Li等,2014)。 本文旨在從用戶的推文中提取教育和工作信息。 給定用戶發佈的一組推文,目標是提取對它們所屬組織的提及。 推文簡短且具有高度上下文相關性,並且顯示特殊的語言特徵,這一事實使這項任務特別具有挑戰性。
數據集 我們根據Li等人(2014)發佈的Twitter語料庫構建了兩個數據集:EDUCATION和JOB。 原始語料庫包含由約1萬名用戶生成的數百萬條推文,其中的教育和工作mentions均使用距離監督(distant supervision)進行註釋(Mintzetal,2009)。 我們從每個用戶中採樣推文,並保持正面和負面帖子之間的比例(正面和負面是指推文中是否包含教育或職務說明)。 所獲得的EDUCATION數據集包含由7,208位用戶生成的443,476條推文,而JOB數據集包含由1,772位用戶生成的176,043條推文。 數據集統計報告在表3中。
EDUCATION和JOB數據集的統計信息(任務2)。表3:EDUCATION和JOB數據集的統計信息(任務2)。

數據集都分爲60%用於訓練,20%用於開發和20%用於測試。 我們執行5個不同的隨機分割,並報告平均結果。

圖構建 我們將圖構建爲自我網絡(ego-networks)(Leskovec和Mcauley,2012),即當我們提取有關一個用戶的信息時,我們會考慮由用戶及其直接鄰居形成的子圖。 每個節點對應一個Twitter用戶,該用戶由一組發佈的推文表示(由於每個節點都是用戶發佈的一組推文,因此我們使用編碼器對每個推文進行編碼,然後對它們進行平均以獲取節點表示形式。 在解碼階段,圖模塊的輸出將針對每個推文饋送到解碼器)。 假設連接的用戶更有可能來自同一所大學或公司,則邊由後繼鏈接定義。 附錄中報告了社交媒體圖的示例。

Task 3:Visual Information Extraction

視覺信息提取是指從以各種佈局格式化的文檔中提取屬性值。 示例包括髮票和表格,其格式可用於推斷有價值的信息以支持提取。
數據集 語料庫由25,200個不良事件病例報告(AECR)組成,其中記錄了與藥物相關的副作用。 每個案例平均包含9頁。 由於這些文件是由多個組織製作的,因此它們在版式和顯示方式(例如文本,表格等)上表現出很大的差異(由於患者隱私和專有問題,無法共享此數據集)。 該數據集合配有單獨的人工提取的ground truth數據庫,可作爲距離監督(distant supervision)的數據源。
我們的目標是提取與患者,事件,藥物和報告者有關的八個屬性(完整列表請參見表6)。 屬性類型包括日期,單詞和短語——可以直接從文檔中提取。
將數據集分爲50%的情況用於訓練,10%的用於開發和40%的用於測試。

圖構建 我們首先使用PDFMiner(https://euske.github.io/pdfminer/)將PDF轉換爲文本,該工具提供單詞及其在頁面中的位置(即邊界框座標)。 然後將連續單詞以幾何方式合併到文本框中。 每個文本框在此任務中均被視爲“句子”,並且對應於圖中的節點。
由於頁面佈局是這些文檔中的主要結構因素,因此我們逐頁進行工作,即每頁對應一個圖形。 邊緣被定義爲水平或垂直連接彼此靠近的節點(文本框)(即,當其邊界框在垂直或水平方向上的重疊超過50%時)。 考慮了四種類型的邊緣:從左到右,從右到左,從上到下和從上到下。 當多個節點對齊時,僅連接最近的節點。 附錄中報告了可視文檔圖的示例。

Baseline and Our Method

我們實現了帶有條件隨機字段(CRF)標記器的兩層BiLSTM,作爲這些事例基線(SeqIE)。 該架構及其變體已被廣泛研究並證明在先前的信息提取工作中是成功的(Lample et al。,2016; Ma and Hovy,2016)。 在文本IE任務(任務1)中,我們的基線顯示爲用CONLL03數據集中的最新方法獲得了競爭結果。 在可視IE任務(任務3)中,爲了進一步提高基線的競爭力,我們順序連接了水平對齊的文本框,因此對圖形的水平邊緣進行了完全建模。
我們的基線與GraphIE共享相同的編碼器和解碼器體系結構,但沒有Graph模塊。 兩種架構具有相似的計算成本。 在任務1中,我們將GraphIE與單詞級圖模塊一起使用(請參見圖2©),在任務2和任務3中,我們將GraphIE與句子級圖模塊一起應用(請參見圖2(b))。

Implementation Details

使用Adam(Kingma and Ba,2014)對模型進行了訓練,以最大程度地降低CRF目標。 爲了進行正則化,我們在輸入詞表示形式和解碼器的隱藏層上選擇比率爲0.1的dropout。 學習率設置爲0.001。 我們使用開發集進行早期停止(early-stopping)和選擇性能最佳的超參數。 對於CharCNN,我們使用64維字符嵌入和64個寬度爲2到4的過濾器(Kim等,2016)。 在任務1和2中使用100維預訓練的GloVe詞嵌入(Pennington等人,2014年),在任務3中使用64維隨機初始化的詞嵌入。我們在Task1中使用兩層GCN,在Task 2和Task 3中使用一層GCN。編碼器和解碼器BiLSTM具有與圖卷積層相同的維度。 在任務3中,我們通過將其邊界框座標轉換爲長度爲32的矢量,然後應用tanh激活,將位置編碼與每個文本框的表示形式連接在一起。

Results

Task 1:Textual Information Extraction

表4描述了CoNLL03(Tjong et al.,2003)和CHEMDNER(Krallinger et al., 2015)數據集的NER精確度。
CoNLL03和CHEMDNER數據集上的NER精度(任務1)
*表4,CONLL03和CHEMDNER數據集上的NER精度(任務1)。 我們方法的得分是5次測試的平均值。 表示優於SeqIE的統計學意義(p <0.01)。

對於CoNLL03數據集,我們列出了現有方法的性能。與最佳方法相比,我們的基準SeqIE獲得了具有競爭力的得分。 事實是GraphIE的性能明顯優於它,再次凸顯了對非本地和非順序依賴關係進行建模的重要性,並證實了我們的方法是實現此目標的合適方法。(在未使用最近引入的ELMo(Peters等人,2018)和BERT(Devlin等人,2018)的方法中,我們實現了最佳的報告性能,這些方法在超大型語料庫上進行了預訓練,並且對計算的要求很高。)

對於CHEMDNER數據集,表明具有最高性能的方法是Krallinger等的文章(2015),即使用基於特徵的方法獲得。 我們的基準性能優於基於特徵的方法,而GraphIE進一步將性能提高了1.4%。

分析 爲了理解GraphIE的優勢,首先,我們研究了圖結構對模型的重要性。如圖3所示,使用隨機連接顯然會損害性能,將GraphIE的F1分數從95.12%降低到94.29%。 這表明特定於任務的圖形結構引入了有益的歸納偏差(inductive bias)。 瑣碎的特徵增強也不能很好地起作用,這證實了學習使用GCN嵌入圖形的必要性。
CONLL03數據集分析
圖3:CoNLL03數據集分析。我們將其和兩個可替代的方案進行比對:(1)隨機連接(random connection),其中我們用邊數相同的隨機圖代替構造圖;(2)特徵增強(feature augmentation),我們使用每個節點及其鄰居的平均嵌入作爲解碼器的輸入,而不是具有附加參數的GCN。 我們在開發集上報告F1分數。

我們進一步在測試集上進行錯誤分析,以驗證GraphIE通過鼓勵相同實體提及(encouraging consistency among identical entity mentions)之間的一致性來解決標籤歧義的動機(請參見圖1)。在此我們檢查單詞級標籤的準確性。 我們將數據集中具有多個可能標籤的單詞定義爲不明確的(ambiguous)。 我們發現,在SeqIE的1.78%標記錯誤中,有1.16%是不明確的(ambiguous),而有0.62%是無歧義的(unambiguous)。 GraphIE可以將錯誤率降低到1.67%,其中不明確的(ambiguous)爲1.06%,無歧義的(unambiguous)爲0.61%。 我們可以看到,大多數錯誤減少的確歸因於歧義詞(ambiguous words)。

Task 2:Social Media Information Extraction

表5顯示了社交媒體信息提取任務的結果。首先,我們以一個簡單的基於字典的方法爲基準。Neural IE模型的性能要好得多,這表明模型可以學習有意義的模式,而不僅僅是記住訓練集中的實體。提出的GraphIE在EDUCATION和JOB數據集中均優於SeqIE,並且對EDUCATION數據集的改進更爲顯着(3.7% vs 0.3%)。造成這種差異的原因是兩個數據集之間的親和力得分(affinity scores)存在差異(Mislove等,2010)。 Li等(2014年)強調EDUCATION的親和力值爲74.3,而JOB的親和力值爲14.5,這意味着在數據集中,鄰居在同一所大學學習的可能性是在同一所大學工作的可能性的5倍。因此,我們可以期望利用GraphIE之類的模型來利用鄰接信息,從而在具有更高親和力的數據集中獲得更好的性能。
在EDUCATION和JOB數據集上的提取精度(任務2)
*表5,EDUCATION和JOB數據集的提取精度(任務2)。字典是一種簡單的方法,可以從訓練集中創建實體的字典,並在測試期間提取其提及(mentions)。 分數是5次運行的平均值。 表示相對於SeqIE的改進是具有統計學意義(Welch’s t-test, p<0.01)。

Task 3:Visual Information Extraction

表6展示了在視覺信息提取任務中的結果。GraphIE在大多數屬性上均優於SeqIE基線方法,並且在micro average F1 score上提高了1.2%。它證實了在視覺信息提取中使用佈局圖結構的好處。
AECR數據集的提取精度(任務3)
表6:AECR數據集上的提取精度(任務3)。得分是5次運行的平均值。P.P.Patient的縮寫,R.R.Reporter的縮寫。$\dagger $表示與SeqIE相比改善的統計意義(p<0.05)。

提取性能隨屬性的不同而變化,從藥物名稱的61.4%到患者生日的95.8%不等(基線方法中可見類似的變化)。 同樣,GraphIE和SeqIE之間的差異隨屬性而變化,在患者生日時爲−0.5%,在事件時爲2.4%。

在表7所述的消融測試(ablation test)中,我們可以看到以下貢獻:對不同邊緣類型(+ 0.8%),水平邊緣(+ 3.1%),垂直邊緣(+ 5.4%)和CRF(+5.7%)使用單獨的權重。

泛化我們還將通過額外的分析來評估GraphIE處理看不見的佈局的能力。 從我們的數據集中,我們抽樣2,000個包含三個最常用模板的報告,並在此子集中訓練模型。 然後,我們在兩種設置下測試所有模型:1)可見的模板(seen templates),其中包含1,000個其他報告,它們位於用於訓練的同一模板中; 和2)看不見的模板(unseen templates),由兩種新模板類型的1,000個報告組成。

圖4報告了GraphIE和SeqIE的性能。這兩個模型在可見模板上均取得了不錯的結果,而GraphIE的得分仍然比SeqIE高出2.8%。 當我們的模型和順序模型在看不見的模板上進行測試時,差距變得更大(20.3%),這表明通過顯式建模更豐富的結構關係,GraphIE可以實現更好的通用性。

Conclusions

我們引入了GraphIE,這是一個信息提取框架,可從圖結構中學習局部和非局部上下文表示,以改善預測。 該系統在特定於任務的圖形拓撲上運行,該拓撲描述了輸入數據的基礎結構。 GraphIE共同對節點(即文本單位,即單詞或句子)表示及其依賴性進行建模。 圖卷積通過相鄰節點投影信息,以最終在字級標記期間支持解碼器。

我們評估了三個IE任務的框架,即文本,社交媒體和視覺信息提取。 結果表明,它可以有效地對非局部和非順序上下文進行建模,從而始終如一地提高準確性並優於競爭性SeqIE基線方法(即BiLSTM + CRF)。

未來的工作包括探索自動學習輸入數據的基礎圖形結構的方法。

Acknowledgements

We thank the MIT NLP group and the reviewers for their helpful comments. This work is supported by MIT-IBM Watson AI Lab. Any opinions, findings, conclusions, or recommendations expressed in this paper are those of the authors, and do not necessarily reflect the views of the funding organizations.

References

Yonatan Aumann, Ronen Feldman, Yair Liberzon,Benjamin Rosenfeld, and Jonathan Schler. 2006. Visual information extraction. Knowl. Inf. Syst.,10(1):1–15.
Edward Benson, Aria Haghighi, and Regina Barzilay.2011. Event discovery in social media feeds. In Proceedings of ACL, pages 389–398. ACL.
Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. 2018. Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805.
Jenny Rose Finkel, Trond Grenager, and Christopher Manning. 2005. Incorporating non-local information into information extraction systems by gibbs sampling. In Proceedings of ACL, pages 363–370. ACL.
Sepp Hochreiter and Jurgen Schmidhuber. 1997. ¨ Long short-term memory. Neural computation, 9(8):1735–1780.
Zhiting Hu, Xuezhe Ma, Zhengzhong Liu, Eduard Hovy, and Eric Xing. 2016. Harnessing deep neural networks with logic rules. In Proceedings of ACL, pages 2410–2420.
Yoon Kim, Yacine Jernite, David Sontag, and Alexander M Rush. 2016. Character-aware neural language models. In Proceedings of AAAI, pages 2741–2749. AAAI Press.
Diederik P Kingma and Jimmy Ba. 2014. Adam: A method for stochastic optimization. arXiv preprint arXiv:1412.6980.
Thomas N Kipf and Max Welling. 2016. Semisupervised classification with graph convolutional networks. arXiv preprint arXiv:1609.02907.
Martin Krallinger, Florian Leitner, Obdulia Rabal, Miguel Vazquez, Julen Oyarzabal, and Alfonso Valencia. 2015. Chemdner: The drugs and chemical names extraction challenge. Journal of cheminformatics, 7(1):S1.
John D Lafferty, Andrew McCallum, and Fernando CN Pereira. 2001. Conditional random fields: Probabilistic models for segmenting and labeling sequence data. In Proceedings of ICML, pages 282–289.
Guillaume Lample, Miguel Ballesteros, Sandeep Subramanian, Kazuya Kawakami, and Chris Dyer. 2016.
Neural architectures for named entity recognition. In Proceedings of NAACL-HLT, pages 260–270, San Diego, California. ACL.
Jure Leskovec and Julian J Mcauley. 2012. Learning to discover social circles in ego networks. In NIPS, pages 539–547.
Jiwei Li, Alan Ritter, and Eduard Hovy. 2014. Weakly supervised user profile extraction from twitter. In Proceedings of ACL, volume 1, pages 165–174.
Qi Li, Heng Ji, and Liang Huang. 2013. Joint event extraction via structured prediction with global features. In Proceedings of ACL, volume 1, pages 73–82.
Xuezhe Ma and Eduard Hovy. 2016. End-to-end sequence labeling via bi-directional lstm-cnns-crf. In Proceedings of ACL, pages 1064–1074, Berlin, Germany. ACL.
Gideon S Mann and Andrew McCallum. 2010. Generalized expectation criteria for semi-supervised learning with weakly labeled data. Journal of Machine Learning Research, 11(Feb):955–984.
Mike Mintz, Steven Bills, Rion Snow, and Dan Jurafsky. 2009. Distant supervision for relation extraction without labeled data. In Proceedings of ACL, pages 1003–1011. ACL.
Alan Mislove, Bimal Viswanath, Krishna P Gummadi, and Peter Druschel. 2010. You are who you know: inferring user profiles in online social networks. InProceedings of the 3rd ACM International Conference on Web Search and Data Mining, pages 251–260. ACM.
Makoto Miwa and Mohit Bansal. 2016. End-to-end relation extraction using lstms on sequences and tree structures. arXiv preprint arXiv:1601.00770.
Nanyun Peng, Hoifung Poon, Chris Quirk, Kristina Toutanova, and Wen-tau Yih. 2017. Cross-sentencen-ary relation extraction with graph lstms. TACL, 5:101–115.
Jeffrey Pennington, Richard Socher, and Christopher Manning. 2014. Glove: Global vectors for word representation. In Proceedings of EMNLP, pages 1532–1543.
Matthew Peters, Mark Neumann, Mohit Iyyer, Matt Gardner, Christopher Clark, Kenton Lee, and Luke Zettlemoyer. 2018. Deep contextualized word representations. In Proceedings of NAACL-HLT, volume 1, pages 2227–2237.
Chris Quirk and Hoifung Poon. 2017. Distant supervision for relation extraction beyond the sentence boundary. In Proceedings of ACL, volume 1, pages 1171–1182.
Roi Reichart and Regina Barzilay. 2012. Multi event extraction guided by global constraints. In Proceedings of NAACL-HLT, pages 70–79. ACL.
Angus Roberts, Robert Gaizauskas, and Mark Hepple. 2008. Extracting clinical relationships from patient narratives. In Proceedings of the Workshop on Current Trends in Biomedical Natural Language Processing, pages 10–18. ACL.
Michael Schlichtkrull, Thomas N Kipf, Peter Bloem, Rianne van den Berg, Ivan Titov, and Max Welling. 2018. Modeling relational data with graph convolutional networks. In European Semantic Web Conference, pages 593–607. Springer.
Linfeng Song, Yue Zhang, Zhiguo Wang, and Daniel Gildea. 2018. N-ary relation extraction using graphstate lstm. In Proceedings of EMNLP, pages 2226–2235.
Kumutha Swampillai and Mark Stevenson. 2011. Extracting relations within and across sentences. In Proceedings of the International Conference Recent Advances in Natural Language Processing, pages 25–32.
Kai Sheng Tai, Richard Socher, and Christopher D Manning. 2015. Improved semantic representations from tree-structured long short-term memory networks. arXiv preprint arXiv:1503.00075.
Kim Sang Tjong, F Erik, and Fien De Meulder. 2003. Introduction to the conll-2003 shared task: Language-independent named entity recognition. In Proceedings of NAACL-HLT, pages 142–147. ACL.
Zhixiu Ye and Zhen-Hua Ling. 2018. Hybrid semimarkov crf for neural sequence labeling. In Proceedings of ACL, pages 235–240.
Yuhao Zhang, Peng Qi, and Christopher D Manning. 2018. Graph convolution over pruned dependency trees improves relation extraction. In Proceedings of EMNLP.

Appendices

我們展示了一些用於不同信息提取任務的構造圖示例。

社交媒體信息提取

社交媒體信息提取的模擬示例(任務2)
圖5 社交媒體信息提取的模擬示例(任務2)。 節點表示爲用戶,邊表示後續關係。

視覺信息提取

視覺信息提取(任務3)
圖6:視覺信息提取的模型示例(任務3)。 兩種形式具有不同的佈局。 圖形相關性顯示爲綠色線條,用於在藍色邊框中連接文本。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章