Long-tail Relation Extraction via Knowledge Graph Embeddings and Graph Convolution Networks

通過知識圖嵌入和圖卷積網絡進行長尾關係提取

作者:Ningyu Zhang, Shumin Deng, Zhanlin Sun, Guanying Wang, Xi Chen, Wei Zhang, Huajun Chen
原文連接:https://www.aclweb.org/anthology/N19-1306/

摘要

我們爲現實世界中普遍存在的長尾不平衡數據提出了一種距離監督關係提取方法。在這裏,挑戰是爲存在於類分佈末尾的類去學習準確的“few-shot”模型,而這些模型幾乎沒有可用的數據。受長尾類和頭類之間豐富的語義關聯的啓發,我們利用分佈開頭的數據豐富類的知識來提高尾部數據貧乏類的性能。首先,我們建議從知識圖嵌入中利用類別標籤之間的隱式關係知識,並使用圖卷積網絡學習顯式關係知識。其次,我們通過從粗到細的知識感知注意力機制將關係知識整合到關係提取模型中。我們針對大規模基準數據集展示了我們的結果,這些數據表明我們的方法明顯優於其他基準,尤其是對於長尾關係。

引言

關係提取(RE)是信息提取中的重要任務,旨在根據兩個給定實體的相關上下文來提取它們之間的關係。 由於能夠提取文本信息並受益於許多NLP應用程序(例如,信息檢索,對話生成和問題回答),因此RE吸引了許多研究人員。 常規的監督模型已在此任務中得到了廣泛探索(Zelenko等,2003; Zeng等,2014); 但是,它們的性能在很大程度上取決於訓練數據的規模和質量。

爲了構建大規模數據,(Mintz等人,2009)提出了一種新穎的遠程監督(DS)機制,通過將現有知識圖(KG)與文本對齊來自動標記訓練實例。 DS使RE模型可以在大規模訓練語料庫上工作,因此最近成爲RE的主要方法(Wu等人,2017; Feng等人,2018)。 儘管這些DS模型在通用關係上取得了可喜的結果,但是當只有一些關係的訓練實例時,它們的性能仍然會急劇下降。 根據經驗,DS可以自動註釋足夠數量的訓練數據。 但是,此數據通常僅涵蓋關係的有限部分。 許多關係是長尾關係,仍然遭受數據不足的困擾。 當前的DS模型忽略了長尾關係的問題,這使得從純文本中提取全面的信息具有挑戰性。

長尾關係很重要,不能忽略。 如圖1所示,在廣泛使用的《紐約時報》(NYT)數據集(Riedel et al., 2010; Lei et al., 2018)(http://iesl.cs.umass.edu/riedel/ecml/)中,近70%的關係是長尾的。因此,對於模型而言,能夠提取數量有限的訓練實例的關係至關重要。
圖1:在NYT數據集上沒有NA的類型標籤頻率分佈
圖1:在NYT數據集上沒有NA的類型的標籤頻率分佈

處理長尾數據非常困難,因爲幾乎沒有訓練示例。因此,很自然地將知識從數據豐富且語義相似的頭類轉移到數據貧乏的頭類。 例如,長尾關係/人/死者/喪葬地和頭關係/人/死者/死亡地在同一分支/人/死者/ *中,如圖2所示。它們在語義上相似,利用頭部關係知識並將其轉移到長尾關係是有益的,從而提高了總體性能。 換句話說,一個實體元組的長尾關係可以與頭關係具有類關係,當預測未知關係時,可以利用這種關係來增強RE來縮小潛在搜索空間並減少關係之間的不確定性。 如果一對實體包含/人/死者/死亡地點,則很有可能包含/人/死者/墓葬。 如果我們可以將兩個關係之間的關係知識納入其中,則提取頭部關係將爲預測長尾關係提供證據。
圖2:頭和長尾的關係
圖2:頭和長尾的關係

但是,存在兩個問題:(1)學習關係知識:語義相似的類可能包含更多的關係信息,這將促進轉移,而無關的類(例如,/location /location/contains和/people/family/country)通常包含較少的關係信息,並可能導致負遷移。(2)利用關係知識:將關係知識集成到現有RE模型中具有挑戰性。

爲了解決學習關係知識的問題,如(Lin et al。2016; Ye et al。2017)所示,我們使用類嵌入來表示關係類,並利用KG嵌入和圖卷積網絡(GCN)提取隱式和顯示的關係知識。 具體來說,先前的研究(Yang等,2015)表明,語義相似關係的嵌入在潛在空間中彼此靠近。 例如,關係 /人/人/居住地 和 /人/人/國籍 之間的相關性更高,而關係 /人/人/職業 與前兩種關係的相關性較小。 因此,很自然地可以利用KG的知識。 但是,由於KG中存在許多一對多關係,因此每個類別的相關信息可能會分散。 換句話說,類之間可能沒有足夠的關係信號。 因此,我們利用GCN來學習顯示的關係知識。

爲了解決利用關係知識的問題,我們首先使用卷積神經網絡(Zeng等,2014,2015)對句子進行編碼。 然後引入從粗到細的知識感知注意機制,將關係知識與編碼後的句子結合到包表示向量中。 關係知識不僅爲關係預測提供了更多信息,而且還爲注意力模塊提供了更好的參考信息,以提高長尾類的性能。

我們在NYT數據集上的實驗結果表明:(1)與基線相比,我們的模型特別有效,特別是對於長尾關係; (2)利用關係知識可以增強RE,並且我們的模型可以有效地通過GCN學習關係知識。

2. 相關工作

2.1 關係提取

監督的RE模型(Zelenko等,2003; GuoDong等,2005; Mooney和Bunescu,2006)需要足夠數量的註釋數據進行訓練,這非常耗時。因此,(Mintz等人,2009)建議DS自動標記數據。DS不可避免地會伴隨錯誤的標籤問題。爲了減輕噪聲問題,(Riedel等,2010; Hoffmann等,2011)提出了多實例學習(MIL)機制。最近,神經模型已廣泛用於關係提取。這些模型可以準確地捕獲文本關係,而無需進行明確的語言學分析(Zeng等,2015; Lin等,2016; Zhang等,2018a)。爲了進一步提高性能,一些研究納入了外部信息(Zeng等,2017; Ji等,2017; Han等,2018a)和高級訓練策略(Ye et al., 2017; Liu et al., 2017; Huang and Wang, 2017; Feng et al.,
2018; Zeng et al., 2018; Wu et al., 2017;Qin et al., 2018)。這些工作主要採用DS來製作大規模數據集,並減少由DS引起的噪聲,而不管長尾關係的影響如何。

對RE長尾的研究很少(Gui等,2016; Lei等,2018; Han等,2018b)。 其中(Gui等人,2016)提出了一種基於解釋的方法,而(Lei等人,2018)利用了外部知識(邏輯規則)。 這些研究孤立地對待每個關係,而不管這些關係之間的語義關聯如何豐富。 Han等人(2018b)提出了針對RE的分層注意方案,特別是針對長尾關係。 與那些方法不同,我們利用了來自KG和GCN的隱式和顯式關係知識,而不是數據驅動的學習的參數空間,在這些空間中,類似的關係可能具有不同的參數,從而阻礙了長尾類的推廣。

2.2 知識圖嵌入

最近,已經提出了幾種KG嵌入模型。 這些方法學習實體和關係的低維向量表示(Bordes等,2013; Wang等,2014; Lin等,2015)。 TransE(Bordes等人,2013)是使用最廣泛的模型之一,該模型將關係視爲同一低維超平面上從頭實體到尾實體的轉換。 受KGs豐富知識的啓發,最近的工作(Han等人,2018a; Wang等人,2018; Lei等人,2018)在KGs的指導下擴展了DS模型。 但是,這些工作忽略了關係之間的豐富關聯。 已經研究了關係結構(關係知識),對於完成KG非常有效(Zhang等人,2018b)。 據我們所知,這是首次嘗試使用KG for RE的類(關係)的關係知識。

2.3 圖卷積網絡

GCN將CNN推廣到二維和一維空間之外。 Defferrard et al。,2016)開發了頻譜方法來執行有效的圖卷積。 (Kipf和Welling,2016)假設圖結構在輸入實例中是已知的,並將GCN應用於半監督學習。 (Schlichtkrull等人,2018)將GCN應用於關係數據(例如,鏈接預測)。 GCN在其他NLP任務中也取得了成功,例如語義角色標籤(Marcheggiani和Titov,2017),依賴項解析(Strubell和McCallum,2017)以及機器翻譯(Bastings等人,2017)。

兩項GCN研究與我們的工作具有相似之處。 (1)(Chen et al。,2017)在結構化標籤空間上使用了GCN。 但是,他們的實驗沒有處理長尾標籤,也沒有引起注意,而是使用平均詞向量來表示每個文檔。 (2)(Rios and Kavuluru,2018)通過利用GCN開發結構化標籤空間,提出了幾種鏡頭和零鏡頭文本分類方法。 但是,他們在標籤圖中使用了GCN,而我們在標籤層次圖中使用了GCN。

3. 方法

在本節中,我們從符號開始介紹我們的RE方法的總體框架。

3.1 概念

我們定義一個KG爲G=ε,R,FG=\varepsilon, R,F,其中εR\varepsilon, RFF分別表示集合的實體、關係和事實。(h,r,t)F(h, r, t)\in F表示在hεh\in \varepsilontεt\in \varepsilon有一個關係rRr\in R。我們按照MIL的設定,將所有的實例分拆爲多個實體-對的包Sh1,t1,Sh2,t2,...{S_{h_1,t_1},S_{h_2,t_2},...}。每一個包Shi,tiS_{h_i,t_i}包含多個實例s1,s2,...{s_1,s_2,...},都提起了實體hih_itit_i。在這些包中的每個實例s表示爲一個單詞序列s=w1,w2,...s={w_1,w_2,...}

3.2 框架

如圖3所示,我們的模型包含3個部分:
圖3:我們所提出的模型的框架
圖3: 我們提出的模型的結構圖

實例編碼器。 給定一個實例及其提到的實體對,我們使用神經網絡將實例語義編碼爲向量。 在這項研究中,我們在給出模型性能和時間效率的前提下,使用卷積神經網絡(CNN)實現實例編碼器。
關係知識學習。給定預訓練的KG嵌入(例如TransE(Bordes等,2013))作爲隱式關係知識,我們採用GCN來學習顯式的關係知識。 通過將通用的消息傳遞推理算法與神經網絡對等體進行融合,我們可以學習到更好的知識關係嵌入。 我們將GCN和預訓練的KG嵌入的輸出連接起來,形成最終的類嵌入。
知識意識的注意力。 在最終類嵌入的指導下,知識意識的注意力旨在選擇與相關關係完全匹配的信息最豐富的實例。

3.3 實例編碼器

給定一個實例s=w1,...,wns={w_1,...,w_n}提到了兩個實體。我們將原始實例編碼爲連續的低維向量xx,該向量由嵌入層和編碼層組成。
嵌入層。嵌入層用於將實例中的離散單詞映射爲連續的輸入嵌入。給定一個實例ss,我們映射實例中的每一個單詞wiw_i到一個實值預訓練的Skip-Gram(Mikolov et al。2013)嵌入中wiRdww_i\in \reals^{d_w}。我們採用按照(Zeng等,2014)進行位置嵌入。 對於每個單詞wiw_i,我們將其到兩個實體的相對距離嵌入到兩個dpd_p維向量中。 然後,我們將單詞嵌入和位置嵌入連接起來,以實現每個單詞的最終輸入嵌入,並在實例中收集所有輸入嵌入。 因此,我們獲得了可用於編碼層的嵌入序列。
編碼層。編碼層旨在將給定實例的輸入嵌入組成其相應的實例嵌入。在這項研究中,我們選擇兩種卷積神經體系結構CNN(Zeng等,2014)和PCNN(Zeng等,2015)將輸入嵌入編碼爲實例嵌入。其他神經網絡架構(例如遞歸神經網絡)(Zhang和Wang,2015)也可以用作句子編碼器。由於先前的工作表明卷積和遞歸體系結構都可以達到可比的最新性能,因此我們在本研究中選擇了卷積體系結構。 請注意,我們的模型與編碼器的選擇無關,因此可以輕鬆地適應其他編碼器架構。

3.4 通過KG嵌入和GCNs的關係知識學習

給定預訓練的KG嵌入和預定義的類(關係)層次結構(對於沒有預定義關係層次結構的數據集,層次結構聚類(Johnson,1967)或K-means可以構建關係層次結構(Zhang et al。,2018b); 可以在補充材料中找到詳細信息。),我們首先利用來自KG的隱式關係知識並初始化層次結構標籤圖; 然後我們應用兩層GCN來從標籤空間中學習顯式的細粒度關係知識。
層次結構標籤圖構造。給定一個KG,即G中的關係集合R(例如,Freebase),其由基本級別的關係(例如,/people/person/ethnicity)組成,我們可以生成相應的更高級別的關係集RHR_H。高級別集合(例如,people)中的關係更爲一般和普遍;它們通常在基本級別集中包含幾個子關係。關係層次結構是樹狀結構的,生成過程可以遞歸完成。我們使用虛擬父節點在關係之間構建最高級別的關聯,如圖3所示。實際上,我們從R0=RR^0=R開始,這是我們關注RE的所有關係的集合,生成過程被執行了L1L-1次以獲得層次關係集合R0,R1,...,RL{R^0,R^1,...,R^L},這裏的RLR^L是一個虛擬的父節點。每一個節點有一個特定的類型t0,1,...,Lt\in{0,1,...,L}以識別它的層的層次結構。例如,如圖3所示,節點/people/person/ethnicity具有特定的類型0,以指示它位於圖的底部。底層中每個節點的向量通過預訓練的TransE(Bordes等人,2013)KG嵌入進行初始化。也可以採用其他KG嵌入,例如TransR(Lin等人,2015)。通過平均所有子向量初始化其父節點。 例如,通過對/people/person/*(all child nodes) 分支下的所有節點進行平均來初始化/people/person/的節點向量。
GCN輸出層。由於KG中的一對多關係和不完整性,通過KG嵌入爲每個標籤獲取的隱式相關信息是不夠的。 因此,我們應用GCN來學習標籤之間的顯式關係知識。 我們使用兩層GCN在標籤空間上利用結構化知識。以從KG中預訓練的關係嵌入viimplicitRdv_i^{implicit}\in \reals^d爲起始。我們整合所有孩子和父節點的標籤向量來行成第i個標籤:
vi1=f(w1vi+jNpWp1vjNp+jNcWc1vjNc+bg1)...........(1)v_i^1=f(w^1v_i+\sum_{j\in N_p} \frac {W_p^1v_j} {|N_p|}+\sum_{j\in N_c} \frac {W_c^1v_j} {|N_c|}+b_g^1)...........(1)
其中W1RqdW^1 \in \reals^{q * d}Wp1RqdW_p^1\in \reals^{q*d}Wc1RqdW_c^1\in \reals^{q*d}bg1Rqb_g^1\in \reals^qff是校正的線性單位(Nair和Hinton,2010),NcN_cNpN_p)是第i個標籤子代(父代)的索引集。 我們使用不同的參數來區分每種邊緣類型,其中父邊代表高級別標籤的所有邊,子邊代表來自低級標籤的所有邊。第二層遵循與第一層相同的公式,並輸出viexplicitv_i^{explicit}。 最後,我們將預訓練的viimplicitv_i^{implicit}與GCN的節點向量viexplicitv_i^{explicit}連接起來,形成層次結構類嵌入,
qr=viimpliictviexplicit................(2)q_r=v_i^{impliict}||v_i^{explicit}................(2)
其中qrRd+qq_r\in \reals^{d+q}

3.5 知識意識的注意力

傳統上,PCNN / CNN的輸出層將學習通過交叉熵損失優化的標籤特定參數。 但是,特定於標籤的參數空間對於每個關係都是唯一的,與長尾關聯的矩陣在訓練期間只能暴露於很少的事實,從而導致泛化性差。 取而代之的是,我們的方法嘗試將句子向量與其對應的類嵌入進行匹配,而不是學習標籤特定的注意參數。 本質上,這成爲檢索問題。 來自類嵌入的相關信息包含有關標籤間長尾的有用的關係知識。

事實上,給定實體對(h,t)(h,t)和它的實例包Sh,t={s1,s2,...,sm}S_{h,t}={\{s_1,s_2,...,s_m\}},我們使用句子編碼器實現實例嵌入{s1,s2,...,sm}\{s_1,s_2,...,s_m\}。我們根據它們的類型(即根據層次結構標籤圖中的層)將類嵌入分組,例如qri,i{0,1,...,L}q_ri, i\in \{0,1,...,L\}。我們使用qriiLq_ri,i≠L(層L是虛擬父節點)作爲分層注意力查詢向量。然後,我們對知識進行粗略到精細的關注,以獲得文本關係表示rh,tr_{h,t}。對於一個關係rr,我們使用層次結構標籤圖構建其父關係層次結構鏈r0...rL1(r^0,...,r^{L-1}),其中ri1r^{i-1}rir^i的子關係。我們提出以下公式來計算每個實例特徵向量sks_kqriq_ri之間的注意力權重(相似性或相關性),
ek=Ws(tanh[sk;qri])+bse_k=W_s(tanh[s_k;q_ri])+b_s
αki=exp(ek)j=1mexp(ej)....................(3)\alpha_k^i=\frac {exp(e_k)} {\sum_{j=1}^{m} exp(e_j)}....................(3)
其中[x1;x2][x_1;x_2]表示x1x_1x2x_2的垂直串聯,WsW_s是權重矩陣,bsb_s是偏差。我們在層次結構標籤圖的每一層上計算注意力操作,以獲得相應的文本關係表示:
rh,ti=ATT(qri,{s1,s2,...,sm}).............................(4)r_{h,t}^i=ATT(q_ri,\{s_1,s_2,...,s_m\}).............................(4)

然後,我們需要在不同層上組合關係表示。 直接連接所有表示是一個簡單的選擇。 但是,不同的層對不同的元組有不同的貢獻。 例如,關係/location/br_state/只有一個子關係/location/br_state/capital,這表明它更爲重要。 換句話說,如果句子對關係/location/br_state/的關注度很高,則具有關係/location/br_state/capital的可能性很高。 因此,我們使用注意力機制來強調層次,
gi=Wgtanh(rh,t)g_i=W_g tanh(r_{h,t})
βi=exp(gi)j=0L1exp(gj).......................(5)\beta_i=\frac {exp(g_i)} {\sum_{j=0}^{L-1} exp(g_j)}.......................(5)
其中WgW_g是一個權重矩陣,rh,tr_{h,t}稱爲基於查詢的函數,可對輸入文本關係表示和預測關係rr的匹配程度進行評分。 每層中的文本關係表示計算爲:
rh,ti=βirh,ti.........................(6)r_{h,t}^i=\beta_i r_{h,t}^i.........................(6)
我們只需將不同層上的文本關係表示形式連接爲最終表示形式:
rh,t=Concat(rh,t0,...,rh,tL1).............................(7)r_{h,t}=Concat(r_{h,t}^0,...,r_{h,t}^{L-1}).............................(7)
最終,這個表示rh,tr_{h,t}將被用來計算條件概率P(rh,t,Sh,t)P(r|h,t,S_{h,t})
P(rh,t,Sh,t)=exp(or)r~Rexp(or~)...................(8)P(r|h,t,S_{h,t}) = \frac {exp(o_r)} {\sum_{\widetilde{r}\in R} exp(o_{\widetilde{r}})}...................(8)
其中oo是全部關係的得分,定義爲:
o=Mrh,t..................(9)o=Mr_{h,t}..................(9)
其中M是用於計算關係得分的表示矩陣。 請注意,注意力權重qriq_ri是從GCN和預訓練的KG嵌入的輸出中獲得的,與數據驅動的學習參數相比,它們可以提供更多的信息性參數,尤其對於長尾數據。

4. 實驗

4.1 數據集和評估

我們在(Riedel等人,2010)開發的NYT數據集上評估了我們的模型,該數據已在最近的研究中廣泛使用(Lin等人,2016; Liu等人,2017; Wu等人,2017; Feng 等人,2018)。數據集具有53個關係,其中包括NA關係,這表明實例的關係不可用。訓練集具有522611個句子,281270個實體對和18252個相關事實。在測試集中,有172448個句子,96678個實體對和1950個相關事實。 在訓練和測試集中,我們將超過120個單詞的句子截斷爲120個單詞。

我們在堅持評估中評估所有模型。 它通過將測試文章中發現的相關事實與Freebase中的相關事實進行比較來評估模型,並在無需人工評估的情況下提供了近似的精度度量。 爲了評估,我們繪製了所有模型的精確召回曲線。 爲了進一步驗證我們的模型對長尾的影響,我們遵循先前的研究(Han等人,2018b)報告了Precision @ N結果。 數據集和基線代碼可以在Github(https://github.com/thunlp/OpenNRE)上找到

4.2 參數設定

爲了公平地將我們的模型結果與那些基準進行比較,我們還通過遵循以下方法設置了大多數實驗參數(Lin等人,2016)。 我們在模型的輸出層上應用dropout,以防止過度擬合。 在訓練模型之前,我們還預訓練了PCNN的句子編碼器。
詳細的超參數設置和不同實例評估的詳細信息可以在補充材料中找到。

4.3 整體評估結果

爲了評估我們提出的模型的性能,我們將模型的精確召回曲線與以前的各種RE模型進行了比較。評估結果如圖4和圖5所示。我們使用各種基於注意力的方法報告了包括CNN和PCNN在內的神經體系結構的結果:+KATT表示我們的方法,+HATT是分層注意力方法(Han等人,2018b),+ATT是對實例的普通選擇性注意力方法(Lin等人,2016),+ATT+ADV是通過在實例嵌入中添加小的對抗性干擾來消除噪聲的注意力方法(Wu等人,2017),以及**+ATT+SL是基於注意力的模型,使用軟標籤方法來減輕實體對(entity-pair)級別上錯誤標籤問題的副作用(Liu等人,2017)。我們還將我們的方法與基於特徵的模型進行比較,包括Mintz**(Mintz等人,2009),MultiR(Hoffmann等人,2011)和MIML(Surdeanu等人,2012)。
圖4:提出的模型與不同的基線模型之間的精確召回曲線
圖4:我們提出的模型與其他不同的基線模型之間的精確率-召回率曲線
圖5:提出的模型與其他基於注意力的神經網絡模型的精確召回曲線圖5:我們提出的模型與其他基於注意力的神經網絡模型之間的精確率-召回率曲線

如兩圖所示,我們的方法在所有基於注意力的模型中均取得了最佳結果。 即使與採用複雜降噪方案和額外信息的PCNN+HATT,PCNN+ATT+ADV和PCNN+ATT+SL相比,我們的模型仍然更具優勢。這表明我們的方法可以利用KG和GCN之間關係的豐富關聯,從而提高性能。 我們相信,通過採用對抗訓練和強化學習等其他機制可以進一步改善模型的性能,這將是我們未來工作的一部分。

4.4 長尾關係的評估結果

爲了進一步證明長尾關係的性能改進,根據(Han等人,2018b)的研究,我們提取了一個測試數據集的子集,其中所有關係都少於100/200個訓練實例。我們採用Hits@K指標進行評估。對於每個實體對,評估都需要模型推薦的前K個候選關係中的對應黃金關係。由於現有模型很難提取長尾關係,因此我們從10,15,20中選擇K。我們報告這些子集的宏觀平均Hits@K精度,因爲微觀平均分數通常會忽略長尾巴的影響。從表1所示的結果中,我們觀察到對於CNN和PCNN模型,我們的模型均優於普通注意模型和HATT模型。儘管與普通ATT方法和HATT方法相比,我們的KATT方法在長尾關係方面都取得了更好的結果,但是所有這些方法的結果仍然遠遠不能令人滿意。這表明遠程監督的RE模型仍然存在長尾關係問題,將來可能需要其他方案和額外信息來解決此問題。
表1,在分別少於100或200的訓練實例的關聯上的Hits@K的準確性(%)表1:在分別少於100或200的訓練實例的關聯上的Hits@K的準確性(%)

4.5 消融研究

爲了分析我們的方法中不同技術的貢獻和效果,我們執行了消融測試。+KATT是我們的方法;w/o hier是一種無需從頭到尾註意的方法(僅利用層次結構標籤圖的底部節點嵌入),這意味着沒有從其更高級別的類進行知識轉移;w/o GCN是沒有GCN的方法,這意味着沒有明確的關係知識; Word2vec是使用預訓練的Skip-Gram嵌入初始化節點的方法(Mikolov等,2013); w/o KG是使用隨機嵌入初始化節點的方法,這意味着沒有KG的先驗關係知識。從表2的評估結果中,我們觀察到性能略有下降,而沒有從粗到精的注意,這證明了從較高節點進行知識轉移是有用的。我們還注意到,在沒有KG或不使用單詞嵌入的情況下,性能會稍有下降,而在刪除GCN時,性能會明顯下降。這是合理的,因爲GCN可以瞭解關係標籤之間更明確的關聯,從而提高了長尾關係的性能。
表2:PCNN消融研究的結果
表2:PCNN消融研究的結果。

4.6 案例研究

我們舉一些例子來說明我們的方法如何影響句子的選擇。在表3中,我們以最低級別(HATT和KATT方法都可以在較高級別上成功選擇正確的句子。 可以在補充材料中找到詳細信息)顯示句子的注意力得分。關係/people/deceased_person/place_of_burial(24個實例)和/location/br_state/capital(4個實例)都是長尾關係。一方面,關係/people/deeased_person/place_of_burial在語義上具有相似的data-rich關係,例如/people/deceased_person/place_of_death。我們觀察到HATT錯誤地將高關注度分配給了錯誤的句子,而KATT成功分配了正確的關注權重,這證明了語義相似關係的知識轉移的有效性(HATT和KATT方法都可以利用高級關係的知識轉移。)。另一方面,關係/location/br_tate/capital沒有語義相似的關係。但是,我們注意到,KATT仍成功地分配了正確的注意權重,這證明了使用粗糙到精細的知識意識注意力機制從高級關係轉移知識的有效性。
表3:案例研究中的示例句子
表3:案例研究中的示例句子

4.7 類嵌入的可視化

我們通過t-SNE可視化類嵌入(Maaten和Hinton,2008年),以進一步展示GCN和KG嵌入如何幫助RE建立長尾關係。我們觀察到

  • (1)圖6(a)和6(d)表明,語義相似的類嵌入與GCN和預訓練的KG嵌入更接近,這有助於選擇長尾實例。
  • (2)圖6(b)和6(c)表明,KG嵌入和GCN對於不同的關係對學習類之間的關係知識有不同的貢獻。例如/location/location/contain具有稀疏的層次結構,這會導致GCN學習效率低下;因此,相對距離僅發生很小的變化,這表明了來自KG的隱式關係知識的必要性。
  • (3)圖6(d)顯示,仍然有一些語義相似的類嵌入位於很遠的地方,這可能會降低長尾的性能。這可能是由於層次結構標籤圖中的稀疏性或對GCN中具有相同父代的節點的平等對待而造成的,這不是一個合理的假設。我們將通過集成更多信息(例如關係描述或組合邏輯推理)來解決此問題,作爲未來工作的一部分。

圖6圖6:類嵌入的T-SNE可視化。 右上角的羣集是/location//關係,左下角的羣集是/people//關係。 正方形,三角形和星形分別表示高(/location)中(/location/location/)和基本(/location/location/contains)關係。

5. 結論和未來的工作

在本文中,我們利用分佈開頭的數據豐富類的知識來提高結尾處的數據貧乏類的性能。 與以前的方法相比,我們的方法提供了使用KG和GCN的類之間的細粒度關係知識,這非常有效且與編碼器無關。

將來,我們計劃探索以下方向:(1)我們可能將我們的方法與最新的降噪方法結合起來,以進一步提高性能。 (2)我們可能會結合使用規則挖掘和推理技術來學習更好的類嵌入,以提高性能。 (3)將我們的方法應用於zero-shot RE並進一步適應其他NLP場景。

致謝

我們要感謝匿名審稿人的辛勤工作和親切評論,這將在將來進一步改善我們的工作。 這項工作是由NSFC91846204 / 61473260,國家重點研究計劃YS2018YFB140004,阿里巴巴藏經閣(知識引擎)研究計劃和中國浙江省自然科學基金(LQ19F030001)資助的。

參考文獻

  1. Joost Bastings, Ivan Titov, Wilker Aziz, Diego Marcheggiani, and Khalil Sima’an. 2017. Graph convolutional encoders for syntax-aware neural machine translation. arXiv preprint arXiv:1704.04675.
  2. Antoine Bordes, Nicolas Usunier, Alberto Garcia-Duran,Jason Weston, and Oksana Yakhnenko. 2013. Translating embeddings for modeling multirelational data. In Proceedings of NIPS, pages 2787–2795.
  3. Meihao Chen, Zhuoru Lin, and Kyunghyun Cho. 2017. Graph convolutional networks for classification with a structured label space. arXiv preprint arXiv:1710.04908.
  4. Michae¨l Defferrard, Xavier Bresson, and Pierre Van-dergheynst.2016. Convolutional neural networks on graphs with fast localized spectral filtering. In Advances in Neural Information Processing Systems, pages 3844–3852.
  5. Jun Feng, Minlie Huang, Li Zhao, Yang Yang, and Xiaoyan Zhu. 2018. Reinforcement learning for rela- tion classification from noisy data. In Proceedings of AAAI.
  6. Yaocheng Gui, Qian Liu, Man Zhu, and Zhiqiang Gao. 2016.Exploring long tail data in distantly supervised relation extraction. In Natural Language Understanding and Intelligent Applications, pages 514–522. Springer.
  7. Zhou GuoDong, Su Jian, Zhang Jie, and Zhang Min. 2005. Exploring various knowledge in relation extraction. In Proceedings of the 43rd annual meeting on association for computational linguistics, pages 427–434. Association for Computational Linguistics.
  8. Xu Han, Zhiyuan Liu, and Maosong Sun. 2018a. Neural knowledge acquisition via mutual attention between knowledge graph and text.
  9. Xu Han, Pengfei Yu, Zhiyuan Liu, Maosong Sun, and Peng Li. 2018b. Hierarchical relation extraction with coarse-to-fine grained attention. In Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, pages 2236–2245.
  10. Raphael Hoffmann, Congle Zhang, Xiao Ling, Luke Zettlemoyer, and Daniel S Weld. 2011. Knowledge-based weak supervision for
    information extraction of overlapping relations. In Proceedings of ACL, pages 541–550. Association for Computational Linguistics.
  11. Yi Yao Huang and William Yang Wang. 2017. Deep residual learning for weakly-supervised relation extraction. arXiv preprint arXiv:1707.08866.
  12. Guoliang Ji, Kang Liu, Shizhu He, Jun Zhao, et al. 2017. Distant supervision for relation extraction with sentence-level attention and entity descriptions. In Proceedings of AAAI, pages 3060–3066.
  13. Stephen C Johnson. 1967. Hierarchical clustering schemes. Psychometrika, 32(3):241–254.
  14. Thomas N Kipf and Max Welling. 2016. Semi-supervised classification with graph convolutional networks. arXiv preprint arXiv:1609.02907.
  15. Kai Lei, Daoyuan Chen, Yaliang Li, Nan Du, Min Yang, Wei Fan, and Ying Shen. 2018. Cooperative denoising for distantly supervised relation extraction. In Proceedings of Coling, pages 426–436.
  16. Yankai Lin, Zhiyuan Liu, Maosong Sun, Yang Liu, and Xuan Zhu. 2015. Learning entity and relation embeddings for knowledge graph completion. In AAAI, volume 15, pages 2181–2187.
  17. Yankai Lin, Shiqi Shen, Zhiyuan Liu, Huanbo Luan, and Maosong Sun. 2016. Neural relation extraction with selective attention over instances. In Proceedings of ACL, volume 1, pages 2124–2133.
  18. Tianyu Liu, Kexiang Wang, Baobao Chang, and Zhifang Sui. 2017. A soft-label method for noise tolerant distantly supervised relation extraction. In Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing, pages 1790–1795.
  19. Laurens vander Maaten and Geoffrey Hinton. 2008. Visualizing data using t-sne. Journal of machine learning research, 9(Nov):2579–2605.
  20. Diego Marcheggiani and Ivan Titov. 2017. Encoding sentences with graph convolutional networks for semantic role labeling. arXiv preprint arXiv:1703.04826.
  21. Tomas Mikolov, Kai Chen, Greg Corrado, and Jeffrey Dean. 2013. Efficient estimation of word representations in vector space. arXiv preprint arXiv:1301.3781.
  22. Mike Mintz, Steven Bills, Rion Snow, and Dan Jurafsky. 2009. Distant supervision for relation extraction without labeled data. In Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP: Volume 2-Volume 2, pages 1003–1011. Association for Computational Linguistics.
  23. Raymond J Mooney and Razvan C Bunescu. 2006. Subsequence kernels for relation extraction. In Advances in neural information processing systems, pages 171–178.
  24. Vinod Nair and Geoffrey E Hinton. 2010. Rectified linear units improve restricted boltzmann machines. In Proceedings of ICML,
    pages 807–814.
  25. Pengda Qin, Weiran Xu, and William Yang Wang. 2018. Dsgan: Generative adversarial training for distant supervision relation extraction. In Proceed- ings of ACL.
  26. Sebastian Riedel, Limin Yao, and Andrew McCallum. 2010. Modeling relations and their mentions without labeled
    text. In Joint European Conference on Machine Learning and Knowledge Discovery in Databases, pages 148–163. Springer.
  27. Anthony Rios and Ramakanth Kavuluru. 2018. Fewshot and zero-shot multi-label learning for structured label spaces.In Proceedings of EMNLP, pages 3132–3142.
  28. Michael Schlichtkrull, Thomas N Kipf, Peter Bloem, Rianne van den Berg, Ivan Titov, and Max Welling. 2018. Modeling relational data
    with graph convolutional networks. In European Semantic Web Conference, pages 593–607. Springer.
  29. Emma Strubell and Andrew McCallum. 2017. De- pendency parsing with dilated iterated graph cnns. arXiv preprint arXiv:1705.00403.
  30. Mihai Surdeanu, Julie Tibshirani, Ramesh Nallapati, and Christopher D Manning. 2012. Multi-instance multi-label learning for relation extraction. In Pro- ceedings of EMNLP, pages 455–465. Association for Computational Linguistics.
  31. Guanying Wang, Wen Zhang, Ruoxu Wang, Yalin Zhou, Xi Chen, Wei Zhang, Hai Zhu, and Huajun Chen. 2018. Label-free distant supervision for rela- tion extraction via knowledge graph embedding. In Proceedings of EMNLP, pages 2246–2255.
  32. Yu-Xiong Wang, Deva Ramanan, and Martial Hebert. 2017. Learning to model the tail. In Proceedings of NIPS, pages 7029–7039.
  33. Zhen Wang, Jianwen Zhang, Jianlin Feng, and Zheng Chen. 2014. Knowledge graph embedding by trans- lating on hyperplanes. In AAAI, volume 14, pages 1112–1119.
  34. Yi Wu, David Bamman, and Stuart Russell. 2017. Ad- versarial training for relation extraction. In Proceed- ings of EMNLP, pages 1778–1783.
  35. Bishan Yang, Wen-tau Yih, Xiaodong He, Jianfeng Gao, and Li Deng. 2015. Embedding entities and relations for learning and inference in knowledge bases. Proceedings of ICLR.
  36. Hai Ye, Wenhan Chao, Zhunchen Luo, and Zhoujun Li. 2017. Jointly extracting relations with class ties via effective deep ranking. In Proceedings of ACL, volume 1, pages 1810–1820.
  37. Dmitry Zelenko, Chinatsu Aone, and Anthony Richardella. 2003. Kernel methods for relation ex- traction. Journal of machine learning research, 3(Feb):1083–1106.
  38. Daojian Zeng, Kang Liu, Yubo Chen, and Jun Zhao. 2015. Distant supervision for relation extraction via piecewise convolutional neural networks. In Pro- ceedings of EMNLP, pages 1753–1762.
  39. Daojian Zeng, Kang Liu, Siwei Lai, Guangyou Zhou, and Jun Zhao. 2014. Relation classification via con-volutional deep neural network. In Proceedings of COLING, pages 2335–2344.
  40. Wenyuan Zeng, Yankai Lin, Zhiyuan Liu, and Maosong Sun. 2017. Incorporating relation paths in neural relation extraction. In Proceddings of EMNLP.
  41. Xiangrong Zeng, Shizhu He, Kang Liu, and Jun Zhao. 2018. Large scaled relation extraction with rein- forcement learning. In Processings of AAAI, vol- ume 2, page 3.
  42. Dongxu Zhang and Dong Wang. 2015. Relation classi- fication via recurrent neural network. arXiv preprint arXiv:1508.01006.
  43. Ningyu Zhang, Shumin Deng, Zhanling Sun, Xi Chen, Wei Zhang, and Huajun Chen. 2018a.Attention- based capsule networks with dynamic routing for re- lation extraction. In Proceedings of EMNLP.
  44. Zhao Zhang, Fuzhen Zhuang, Meng Qu, Fen Lin, and Qing He. 2018b. Knowledge graph embedding with hierarchical relation structure. In Proceedings of EMNLP, pages 3198–3207.
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章