論文解讀:(TransH)Knowledge Graph Embedding by Translating on Hyperplanes

轉自: https://blog.csdn.net/qq_36426650/article/details/103336589?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-3.control&depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-3.control

論文解讀:(TransH)Knowledge Graph Embedding by Translating on Hyperplanes

  TransE是一種經典的知識表示學習方法,其通過對頭實體、尾實體及對應關係進行建模,設計 d ( h + l − t ) d(h+l-t)d(h+l−t) 的能量函數,並運用負採樣和隨機梯度下降的方法對待訓練的向量進行調整,從而能夠得到不錯的低維向量。TransE模型在鏈接預測上達到的最優,對知識補充起到了最好的效果。
  然而TransE模型結構非常簡單,雖然可以在大量數據的條件下可以快速有效的進行訓練,但由於模型過於簡單,並不能夠很好的表徵實體對之間的語義關係。另外對於處理複雜關係數據(一對多、多對一和多對多)時,過於簡單的假設可能導致錯誤的表徵。例如對於一對多情況,即同一個頭實體 h hh 和關係 l ll 可能對應多個尾實體 h 1 , h 2 , . . . h_1,h_2,...h1​,h2​,...,所以TransE模型訓練後的結果是 h 1 ≈ h 2 ≈ . . . h_1\approx h_2 \approx ...h1​≈h2​≈...,這很明顯是錯誤的。因此需要對其進行改進。TransH就是對TransE模型的改進。

一、簡要信息

序號 屬性
1 模型名稱 TransH
2 所屬領域 自然語言處理
3 研究內容 知識表示
4 核心內容 knowledge embedding
5 GitHub源碼 https://github.com/thunlp/KB2E
6 論文PDF http://pdfs.semanticscholar.org/2a3f/862199883ceff5e3c74126f0c80770653e05.pdf)

二、摘要與引言

  我們將大規模的知識圖譜中的實體和關係嵌入到連續的向量空間中。TransE是最近提出的一種方法,它非常有效,同時可以獲得最優的預測效果。我們討論了許多關係映射的屬性需要考慮被嵌入,包括自反性、一對多、多對一和多對多。我們指出TransE模型不能夠處理這些特性。一些複雜的模型可以有效的保存這些映射屬性,但需要犧牲一定的效率。爲了能夠在能力和效率之間保持平衡,本文我們提出TransH模型,其可以構建關係的超平面並執行翻譯操作。這樣我們可以很好的保存上面提到的關係映射特性,且模型複雜度與TransE相似。另外作爲一種實用的知識圖譜,往往是不完整的。在訓練過程中如何構建負樣本對於降低錯誤標籤是非常重要的。利用一對多或多對一的關係映射屬性,我們提出一種簡單的策略來價格低錯誤標籤的可能性。我們執行了額外的實驗包括鏈接預測、三元組分類和知識抽取在標準數據集上,例如WordNet和FreeBase。實驗表明,與TransE相比,TransH在預測精度方面有了顯著的改進,並具有可比較的擴展能力。
  知識圖譜是一種多元的圖,其包含一些實體(結點)和關係(不同類型的邊)組成。一個邊的示例代表一個事實,包含頭實體、關係和尾實體,通常表示爲 ( h , l , t ) (h,l,t)(h,l,t) 。構建知識圖譜在過去有了很大的突破,但依然存在兩個挑戰:
(1)知識圖譜是一種由符號和邏輯組成的系統,基於此的一些應用涉及到連續空間內大規模的計算;
(2)很難把全局信息聚集在圖中。
傳統 的方法是基於形式化邏輯推理的方法,但處理長範圍的推理顯得不那麼容易處理,健壯性變低。最近一種新的方法被提出來處理這些問題,即將知識圖譜嵌入在連續的空間中。方法是將頭尾實體表示爲空間中的點(即是座標原點到這個點的向量),關係邊表示爲兩個點之間的映射屬性,通過最小化一個全局損失函數來訓練這三個向量。
  通常知識圖譜表徵中,實體被表示爲一個 k kk 維度的向量 h , t h,th,t,定義一個得分函數 f l ( h , t ) f_l(h,t)fl​(h,t) 表示三元組 ( h , l , t ) (h,l,t)(h,l,t) 的嵌入空間。TransE模型的得分函數是 f l ( h , t ) = ∣ ∣ h + l − t ∣ ∣ f_l(h,t)=||h+l-t||fl​(h,t)=∣∣h+l−t∣∣。另外還有距離模型、單層線性模型、雙線性模型、非線性神經網絡模型等。
  本文我們首先分析TransE存在的不能夠有效的處理複雜關係的問題。因此我們提出TransH模型,將實體映射到關係所在的超平面上。每個關係包含兩個向量 w r w_rwr​ 和 d r d_rdr​ ,分別表示超平面的法向量和在超平面內的翻譯向量。關係對應的超平面確定,因此法向量 w r w_rwr​ 也是確定的;而三元組中的頭實體個尾實體分別投影到這個超平面上形成的向量之間存在一定的映射關係, d r d_rdr​ 便是描述這個映射關係的翻譯向量。





三、相關工作與主要貢獻

  本文的相關工作包括
(1)TransE模型:TransE模型旨在將頭尾實體與關係邊通過 f l ( h , t ) = ∣ ∣ h + l − t ∣ ∣ f_l(h,t)=||h+l-t||fl​(h,t)=∣∣h+l−t∣∣ 函數進行建模,並達到最有效果,但其忽略了複雜關係問題;
(2)Unstructured(無結構模型):更爲簡單的一種建模方式,簡單的講 f l ( h , t ) = ∣ ∣ h − t ∣ ∣ f_l(h,t)=||h-t||fl​(h,t)=∣∣h−t∣∣ ,即不考慮關係;
(3)Distant Model(距離模型/結構模型):引入兩個相互不關聯的投影矩陣,並分別與頭實體和尾實體相乘,得分函數爲 f l ( h , t ) = ∣ ∣ W h l h − W t l t ∣ ∣ f_l(h,t)=||W_{hl}h-W_{tl}t||fl​(h,t)=∣∣Whl​h−Wtl​t∣∣ ;
(4)雙線性模型:只用一個投影矩陣並同時與兩個實體相乘, f l ( h , t ) = h T W h l t f_l(h,t)=h^{\mathbf{T}}W_{hl}tfl​(h,t)=hTWhl​t ;
(5)單層神經網絡(SLM):分別對頭實體和尾實體添加一個全連接網絡,並映射到同一個維度的向量,最後添加非線性激活函數,得分函數可以表示爲 f l ( h , t ) = U T g ( W h l h − W t l t ) f_l(h,t)=U^{\mathbf{T}}g(W_{hl}h-W_{tl}t)fl​(h,t)=UTg(Whl​h−Wtl​t);
(6)張量神經網絡(NTN):其改進了單層網絡結構,得分函數爲f l ( h , t ) = U T g ( h T W l t + W h l h + W t l t ) f_l(h,t)=U^{\mathbf{T}}g(h^{\mathbf{T}}W_{l}t+W_{hl}h+W_{tl}t)fl​(h,t)=UTg(hTWl​t+Whl​h+Wtl​t);
在這裏插入圖片描述
如上圖所示,其抱哈詞空間和實體空間,兩個實體通過SLM映射到實體空間,而關係則通過雙線性映射到實體空間中。下圖羅列所有現有模型的得分函數即複雜度:
在這裏插入圖片描述
  本文的符號表示分別爲









符號 表示
h , r , t h,r,th,r,t 頭實體、關係、尾實體
h,r,t \textbf{h,r,t}h,r,t 頭實體、關係、尾實體的嵌入表徵
△ , △ ′ \triangle,\triangle '△,△′ 真實三元組、錯誤三元組

  關係映射分析
  對於TransE模型來說,存在兩個問題:
(1)如果關係 r rr 是自反性,即 ( h , r , t ) , ( t , r , h ) ∈ △ (h,r,t),(t,r,h)\in \triangle(h,r,t),(t,r,h)∈△,TransE會計算出 h = t , r = 0 \textbf{h}=\textbf{t},\textbf{r}=\textbf{0}h=t,r=0;
(2)如果是複雜關係(一對多,多對一,多對多),例如對於一對多情況,即同一個頭實體 h hh 和關係 l ll 可能對應多個尾實體 h 1 , h 2 , . . . h_1,h_2,...h1​,h2​,...,所以TransE模型訓練後的結果是 h 1 ≈ h 2 ≈ . . . \textbf{h}_1\approx \textbf{h}_2 \approx ...h1​≈h2​≈...。


四、算法模型詳解(TransH)

  假設一個三元組 ( h , r , t ) (h,r,t)(h,r,t) 對應的向量分別是 h , r , t \textbf{h},\textbf{r},\textbf{t}h,r,t,關係 r rr 的對應的投影矩陣設爲 w r \textbf{w}_rwr​,如圖所示:
在這裏插入圖片描述
關係 r rr對應一個超平面,實體空間中的兩個實體 h , t h,th,t 通過關係映射矩陣 w r \textbf{w}_rwr​ 投影到這個超平面上。這種投影機制並非普通的垂直投影,投影的方式則通過矩陣相乘形式,取決於對應的實體,投影后的向量分別爲:
h ⊥ = h − w r T h w r \textbf{h}_{\perp}=\textbf{h}-\textbf{w}_r^{\textbf{T}}\textbf{h}\textbf{w}_rh⊥​=h−wrT​hwr​


t ⊥ = t − w r T t w r \textbf{t}_{\perp}=\textbf{t}-\textbf{w}_r^{\textbf{T}}\textbf{t}\textbf{w}_rt⊥​=t−wrT​twr​

於是得分函數定義爲 f r ( h , t ) = ∣ ∣ h − w r T h w r + d r − t − w r T t w r ∣ ∣ 2 2 f_r(\textbf{h},\textbf{t})=||\textbf{h}-\textbf{w}_r^{\textbf{T}}\textbf{h}\textbf{w}_r+\textbf{d}_r-\textbf{t}-\textbf{w}_r^{\textbf{T}}\textbf{t}\textbf{w}_r||_2^2fr​(h,t)=∣∣h−wrT​hwr​+dr​−t−wrT​twr​∣∣22​ 。

  訓練的損失函數則於TransE一樣,採用的負採樣方法,最小化正確三元組的得分,最大化錯誤三元組的得分:

L = ∑ ( h , r , t ) ∈ △ ∑ ( h ′ , r ′ , t ′ ) ∈ △ ′ [ γ + f r ( h , t ) − f r ( h ′ , t ′ ) ] + L=\sum_{(h,r,t)\in \triangle}\sum_{(h',r',t')\in \triangle'}[\gamma + f_r(\textbf{h},\textbf{t})-f_r(\textbf{h}',\textbf{t}')]_+L=(h,r,t)∈△∑​(h′,r′,t′)∈△′∑​[γ+fr​(h,t)−fr​(h′,t′)]+​

作者設計了幾個約束條件,並修改了損失函數(由於公式過長,節省時間直接截圖):
在這裏插入圖片描述
  對於損失函數後面的解釋:
(1)C CC 表示超參數,是一個權值;
(2)括號內前一個累和表示所有實體累計計算實體向量的長度的平方與1的差的最大值(與0比較),可知該項約束了實體向量長度小於等於1;
(3)後一個累和表示對於所有關係類映射向量正交分解,即保證每個關係類在一定程度上所表示的空間互不相關。
  TransH依然使用隨機梯度下降法進行更新參數
  作者另外改進了TransE在負採樣過程中可能導致引入錯誤標籤的問題。首先設置一定的概率用於代替頭實體或尾實體。當關係爲一對多時,讓頭實體有更大的概率被替換;當關係爲多對一時,讓尾實體有更大的概率被替換。這種替換策略相比TransE的隨機方式能夠降低錯誤標籤。
負採樣機制:設 t p h tphtph 表示每個頭實體對應的尾實體數量的平均值,h p t hpthpt 表示每個尾實體對應的頭實體數量的平均值。給定的實體對 ( h , r , t ) (h,r,t)(h,r,t) ,然後以 t p h t p h + h p t \frac{tph}{tph+hpt}tph+hpttph​概率替換頭實體,以 h p t t p h + h p t \frac{hpt}{tph+hpt}tph+hpthpt​概率替換尾實體。
  通過約束負採樣的策略,可以保證在負樣本中依然保持原有的複雜關係,不至於產生不正確的負樣本。








五、實驗及分析

  作者在三個任務上進行了驗證,相比TransE模型更具有通用性和可擴展性。
(1)鏈接預測:這部分與TransE相同,鏈接預測的概念請參考【TransE】,具體的實驗細節和參數設置省略,實驗對比如圖所示:
在這裏插入圖片描述
(2)三元組分類:這個任務主要是二分類,給定一個三元組 ( h , r , t ) (h,r,t)(h,r,t) ,判斷這個三元組是否是正確的,即頭尾實體 h , t h,th,t 是否屬於關係 r rr。實驗細節省略,實驗對比圖如圖所示:
在這裏插入圖片描述
其中Hits@10表示對所有三元組中,預測結果在前10箇中的佔比。可參考【Hits@10理解】。
(3)文本關係抽取:這一部分正是TransE在總結部分的未來展望,TransH將其實現這個任務的對比。關係抽取任務可以通過知識表示來完成,也屬於一種知識補充。作者使用基於遠程監督的關係抽取,評價指標則爲P-R曲線與對應的AUC面積。實驗細節省略,實驗對比如圖所示:
在這裏插入圖片描述
在這裏插入圖片描述
上圖一爲精確度測試,即測試集中目標實體對關係被正確預測的比例;圖二的兩個圖表示P-R曲線,這部分則是多類分類任務。左圖表示基於Sm2r和TransE/TransH的兩個得分函數共同訓練,右圖表示僅使用TransE/TransH的得分函數訓練,可知TransE和TransH均比現有的模型效果好,TransE和TransH對比下可知TransH優於TransE。








六、論文總結與評價

  這個模型TransE主要解決了TransE不能夠很有效的進行復雜關係的建模,並提出一種關係映射方法解決了這個問題,在包括鏈接預測、三元組分類和關係抽取任務上表現最好,另外作者改進了負採樣的策略,提出一種概率採樣的辦法,降低錯誤標籤帶來的問題。
  當然TransH也存在一定的問題:頭尾實體依然處於相同的語義空間,而每個三元組的關係可能關注頭尾實體的不同屬性,即每個關係對應的頭尾實體應在不同的語義空間中表徵,因此TransR模型由此誕生。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章