知識圖譜表示學習 TransE: Translating Embeddings for Modeling Multi-relational Data
表示學習是深度學習的基礎,將數據用更有效的方式表達出來,才能讓深度學習發揮出更強大的作用。表示學習避免了手動提取數據特徵的繁瑣,允許計算機學習特徵的同時,也學習如何提取特徵。儘管舉例基於翻譯(translation)的知識圖譜表示學習已經過去了五六年的時間,但是仍不可忽略其重要意義。本文聚焦於TransE模型。
1. 引言
多元關係數據(Multi-relational data)對應一個有向圖,常用的三元組來表示,有時也記作。head表示頭結點,tail表示尾結點,在圖中對應一個實體,故也稱作頭實體和尾實體。本文的工作集中於對知識圖譜中的多元關係數據進行建模,在不引入額外知識的情況下,可以高效自動獲取新的知識。
多元關係數據建模:通常來講,建模的過程最終落於提取實體之間局部或者全局的連接模式,通過這些連接模式來預測一個特定實體和其他實體之間的關係。難點在於關係數據中包含的實體或者關係可能屬於不同的類型,所以對多元關係數據進行建模需要選擇合適的方法考慮到不同關係的異質性。
關係作爲嵌入空間的轉換關係:本文中,我們提出TransE,其中關係作爲向量空間轉變的橋樑。若存在的三元組,則實體的嵌入表示應該等於頭實體的向量+關係向量。
2. 相關工作
(1) 結構化嵌入表示 Structured Embeddings(SE):將實體嵌入進,將關係嵌入進兩個變換矩陣, 使得對於一些不存在的關係,距離更大。目標函數爲。
(2) 神經張量網絡 Neural Tensor Model(NTM):此處使用的是NTM的特殊形式,對於一個三元組,得分爲
其中,, , 。與原文略有出入。
3. 基於翻譯的模型 TransE
TransE將實體和關係嵌入進維的空間向量中,爲超參數。對於一個知識圖譜中的三元組,其應該滿足向量加法,即,所以設定能量函數,對於所有知識圖譜中的三元組,最小化,具體而言,損失函數爲:
注意到,訓練的損失分爲正樣本和負樣本(負採樣)兩個部分,通過最小化正樣本的損失,最大化負樣本的距離,達到優化嵌入表示的目的。負樣本通過選取一個三元組,替換其的一個頭實體爲其他的頭實體,替換其的一個尾實體爲其他的尾實體,最終得到和來構造負樣本。文中同時強調,要約束實體嵌入表示的L2範數爲1,防止模型僅增大實體嵌入表示的模長來優化損失函數。
4. 實驗
(1) 實驗數據:選取Wordnet和Freebase,具體數據如圖
(2) 評價任務和評價指標:使用鏈接預測(Link prediction)作爲評價任務。對於測試集中的每一個三元組,使用計算出,並計算和其他所有實體的距離,按照距離升序排序。使用和作爲評價指標。其中指的是,對於所有待預測實體,計算排序位置的均值;而指的是排序出現在前十的實體數目佔總測試集實體數目的百分比。
在測試中,可能會出現某些實體排序比測試集實體(gtround truth)靠前的情況,但是這些實體又是真實出現在訓練集或者驗證集中的(因爲知識圖譜的鏈接數量巨大)。爲了避免這種情況的出現對評價指標帶來的影響,將把去除掉訓練集、驗證集和測試集中造成影響的三元組得到的結果記爲,沒有去除過的稱爲。
(3) 實驗結果:
此外,文章還針對一對一、多對一、一對多、多對多的關係單獨進行了測試並給出結果。
最後,文章給出了再少樣本情況下,隨着樣本數目的增多,各個模型在兩個評價指標上的表現。
5. 結論
相較於先前其他模型,TransE模型可以使用最小的參數量得到知識圖譜的實體和關係向量表示。儘管無法確定是否所有類型的關係均使用這種方法進行建模,但通過對不同關係類型的進行評估(一對一、一對多等),可以看出和其他模型相比,表現也較爲不錯。