論文筆記: Generating Knowledge Graph Paths from Textual Definitions using Sequence-to-Sequence Models

前言:
這是一篇關於Text to Entity Mapping(以下簡稱TEM)的文章,也是筆者瞭解的第一篇關於該任務的文章,自己是抱着瞭解該任務的目的來的,因此只是很淺層的理解,也沒有摳細節。

這篇文章是自然語言處理——知識圖譜——Text-To-Entity Mapping系列中的一篇。

一、動機

傳統的TEM模型大多是將TextKG各自編碼到兩個不同的語義空間,最後再對其兩個語義空間。但是這樣的方法有以下缺陷:
(1) 很大程度依賴對KG的編碼效果。
(2) 不具有可解釋性。

二、方法

針對上述的兩個問題,作者提出: 我們並不將Text匹配到KG中的一個節點,而是將其匹配到KG中的一條根據上下位關係組成的路徑.

比如實體swift的Text描述如下:

small bird that resembles a swallow and is noted for its rapid fligh.

而其在KG中的上下位關係有以下path

animal→chordate→vertebrate→bird→apodform bird

那麼我們便將任務從Text->swift轉爲Text->path的匹配。

這樣的方法有以下好處:

(1) 相當於引入了上下位關係的外部信息,有助於更好地進行KG的表示學習。
(2) 模型是可解釋的,因爲我們最終可以追蹤一條路徑。

三、模型

爲了簡化問題,作者將KG處理爲了一顆樹,使得從root到每個實體只有一條路徑。文章核心就是使用Seq2Seq的模型做一個TextPath的映射。

具體地,其流程如下:

(1) Encoder: 使用雙向LSTM編碼實體的Text定義,最後憑藉最終的兩個隱狀態得到h=[h,lhr]h = [h,_l h_r], 用來作爲Decoder輸入。
(2) Decoder: 使用一個LSTM以及Attention機制,進行每一步的實體預測。由於其訓練數據是這樣的

authority.n.07【實體】 authority【指代實體的詞】 authoritative written work【對實體的Text定義】 <SOS> v3 v2 v36 v7 v7 v10 v11 v12 v8 <EOS>【知識圖譜中到實體“authority.n.07”的路徑,其中vi是簡化的實體節點表示】

因此應該是Decoder預測出<EOS>便停止,從而輸出路徑。

具體地,作者提出了Text2NodeText2Edge兩種方法,不過不是很能理解Text2Edge的好處是什麼.

四、實驗結果

評測指標採用F1值,結果如下:
在這裏插入圖片描述
作者在8個數據集上進行了實驗,也取得了不錯的結果,不過作者也指出了現有模型值得改進的地方:

(1) 只是將KG抽象爲了一顆樹,而不是一個DAG,有點過於簡化.
(2) 模型會預測出不在KG中的Path
(3) 模型預測出的Path長度會受到訓練集Path長度較明顯的影響。

五、總結

該文章也算是給出了一種新的觀點: 從匹配單個節點轉變爲匹配一條路徑, 其使用Seq2Seq的方法其實和當初筆者遇到的一篇信息抽取模型相似,有點新瓶裝舊酒的感覺。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章