論文筆記: Generating Knowledge Graph Paths from Textual Definitions using Sequence-to-Sequence Models

前言：
這是一篇關於Text to Entity Mapping(以下簡稱TEM)的文章，也是筆者瞭解的第一篇關於該任務的文章，自己是抱着瞭解該任務的目的來的，因此只是很淺層的理解，也沒有摳細節。

這篇文章是自然語言處理——知識圖譜——Text-To-Entity Mapping系列中的一篇。

文章目錄

一、動機

傳統的TEM模型大多是將Text與KG各自編碼到兩個不同的語義空間，最後再對其兩個語義空間。但是這樣的方法有以下缺陷:
(1) 很大程度依賴對KG的編碼效果。
(2) 不具有可解釋性。

二、方法

針對上述的兩個問題，作者提出: 我們並不將Text匹配到KG中的一個節點，而是將其匹配到KG中的一條根據上下位關係組成的路徑.

比如實體swift的Text描述如下:

small bird that resembles a swallow and is noted for its rapid fligh.

而其在KG中的上下位關係有以下path

animal→chordate→vertebrate→bird→apodform bird

那麼我們便將任務從Text->swift轉爲Text->path的匹配。

這樣的方法有以下好處:

(1) 相當於引入了上下位關係的外部信息，有助於更好地進行KG的表示學習。
(2) 模型是可解釋的，因爲我們最終可以追蹤一條路徑。

三、模型

爲了簡化問題，作者將KG處理爲了一顆樹，使得從root到每個實體只有一條路徑。文章核心就是使用Seq2Seq的模型做一個Text到Path的映射。

具體地，其流程如下:

(1) Encoder: 使用雙向LSTM編碼實體的Text定義，最後憑藉最終的兩個隱狀態得到 $h = [h,_l h_r]$ , 用來作爲Decoder輸入。
(2) Decoder: 使用一個LSTM以及Attention機制，進行每一步的實體預測。由於其訓練數據是這樣的

authority.n.07【實體】 authority【指代實體的詞】 authoritative written work【對實體的Text定義】 <SOS> v3 v2 v36 v7 v7 v10 v11 v12 v8 <EOS>【知識圖譜中到實體“authority.n.07”的路徑，其中vi是簡化的實體節點表示】

因此應該是Decoder預測出<EOS>便停止，從而輸出路徑。

具體地，作者提出了Text2Node和Text2Edge兩種方法，不過不是很能理解Text2Edge的好處是什麼.

四、實驗結果

評測指標採用F1值，結果如下:

作者在8個數據集上進行了實驗，也取得了不錯的結果，不過作者也指出了現有模型值得改進的地方:

(1) 只是將KG抽象爲了一顆樹，而不是一個DAG，有點過於簡化.
(2) 模型會預測出不在KG中的Path
(3) 模型預測出的Path長度會受到訓練集Path長度較明顯的影響。

五、總結

該文章也算是給出了一種新的觀點: 從匹配單個節點轉變爲匹配一條路徑，其使用Seq2Seq的方法其實和當初筆者遇到的一篇信息抽取模型相似，有點新瓶裝舊酒的感覺。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

論文筆記: Generating Knowledge Graph Paths from Textual Definitions using Sequence-to-Sequence Models

文章目錄

一、動機

二、方法

三、模型

四、實驗結果

五、總結

Python 爬蟲：Spring Boot 反爬蟲的成功案例

Java中止線程的方式

京東科技數字化營銷能力的演進與最佳實踐| 京東雲技術團隊

CS294-112: Introduction to Reinforcement Learning

排列問題的重參數技巧

論文筆記：Simplify the Usage of Lexicon in Chinese NER Minlong

CS294-112: Policy Gradients

自然語言處理名言

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結