簡介
近年來,張量分解模型憑藉模型簡潔、計算速度快等優點在知識圖譜補全任務上取得了令人矚目的成就。但是,這些模型較易受到過擬合的影響,在性能上通常落後於其他類型的模型。爲解決過擬合問題,包括 L2 正則,N3 正則 [1] 在內的多種正則項被提出,但這些正則項又在性能或者適用範圍上存在明顯缺陷。
爲此,我們基於知識圖譜補全模型之間的對偶性,爲張量分解模型提出了一種新的正則項——DURA。該正則項可以廣泛地應用於多種不同的張量分解知識圖譜補全模型,且能夠顯著提升模型性能。
論文標題:
Duality-Induced Regularizer for Tensor Factorization Based Knowledge Graph Completion
論文鏈接:
https://papers.nips.cc/paper/2020/hash/f6185f0ef02dcaec414a3171cd01c697-Abstract.html
代碼鏈接:
https://github.com/MIRALab-USTC/KGE-DURA
知識圖譜補全
知識圖譜由大量的事實三元組構成,其存儲了結構化的人類知識。例如,下圖中的(金庸,筆下人物,雲中鶴)和(金庸,姑父,蔣百里)都是事實三元組。
儘管常用的知識圖譜具有十億乃至以上級別的三元組,但其中仍會存在大量的三元組缺失。例如,下圖中”蔣英“和”錢學森“之間缺失了”丈夫“關係,”金庸“和”蔣英“之間缺失了”表姐“關係。因知識圖譜的規模通常極爲龐大,人工對圖譜進行補全代價高昂。因此,基於知識圖譜中的已知三元組來自動預測缺失三元組的知識圖譜補全(Knowledge Graph Completion, KGC)技術近年來備受關注。
形式化描述
給定一個由實體構成的集合 和一個由關係構成的集合 ,一個知識圖譜
我們通常將知識圖譜補全問題建模成一個給定頭(尾)實體和關係的尾(頭)實體預測問題。如在問題 中給定 來預測尾實體。
知識圖譜補全模型通常先將每個實體 與關係 映射爲低維嵌入 和 (knowledge graph embeddings,可爲向量/矩陣/張量),然後通過一個以低維嵌入爲輸入的打分模型 爲給定三元組 進行打分,從而確定任意三元組真實存在的概率(即置信度)。如果一個補全模型足夠好,那在 這一問題中,能夠使得三元組成立的尾實體 得分應該高於其他實體。
知識圖譜補全模型
4.1 兩類重要模型
「基於距離的模型」 (distance-based models) 和「基於張量分解的模型」 (tensor factorization-based models) 是兩類重要的知識圖譜補全模型。
基於距離的模型使用閔可夫斯基距離來度量三元組的合理性,其一般具有如下形式。
其中 是與模型相關的函數。
雖然這類模型能夠達到較好的性能,但在建模複雜的關係模式(如一對多和多對一關係)時仍然存在困難。
基於張量分解的模型將知識圖譜視爲部分可觀測的三階張量 ,當 是正確三元組時, ,否則 。因此,知識圖譜補全被建模爲一個張量補全問題。
假設 表示 的第 個前向切片,即第 個關係的鄰接矩陣。一般情況下,基於張量分解的知識圖譜補全模型將 近似分解爲 ,其中 的第 行是 , 是第 個關係對應的嵌入矩陣, 和 分別是復矩陣的實部和共軛(實矩陣的實部和共軛是它本身)。也就是說,打分函數被定義爲
從理論上講,張量分解模型表現力強,能夠很好地處理複雜的關係。然而,它們的往往面臨「嚴重的過擬合」問題,無法達到最佳性能。因此,我們通常會在訓練模型時加入「正則」入。
令 ,而 是一個第 個前向切片爲 的張量,則正則化後的基於張量分解的知識圖譜補全模型可以寫成
其中 是固定參數, 衡量 與 之間的差異,而 是正則函數。
4.2 面向張量分解知識圖譜補全的正則
針對張量分解模型,目前流行的正則項主要包括 正則和 正則。
正則是最常用的正則項,具有如下形式
其又被稱爲平方 Frobenius 正則。從上式這可以看出, 正則能夠應用於絕大部分張量分解模型,但實驗表明,其並不一定能夠帶來穩定的性能提升 [2]。
正則 [1] 即張量 3 階核範數 (tensor nuclear-3 norm) [3] 正則,其適用於 爲對角矩陣的模型,具有如下形式
其中 和 分別是矩陣 和 的第 列。假設 是一個由 的對角元組成第 行的矩陣,則 是矩陣 的第 列。實驗表明, 正則在 爲對角矩陣時(如 CP 和 ComplEx)能帶來穩定的性能提升,但其不適用於 爲非對角陣的更一般情況(如 RESCAL)。
因此,我們還需要一個適用範圍廣且能帶來穩定性能提升的正則項。
對偶誘導正則 DURA
5.1 Basic DURA
考慮一個知識圖譜補全問題 ,即已知頭實體和關係來預測尾實體。假設用 來衡量給定三元組 的置信度,則上一節中提到的基於張量分解的模型的打分函數可以寫成
它首先通過一個線性變換 對實體嵌入 做一個映射,然後使用內積的實部來度量 和 之間的相似性。我們可以用另一個常用的相似性度量歐幾里德距離可以代替上述等式中的內積相似性. 從而得到一個與之對應的基於距離的模型:
因平方打數函數和無平方的形式是等價的,我們事實上得到了以下「對偶性」:對於現有的基於張量分解的知識圖譜補全模型(原模型),通常還有另一個與之相對應的基於距離的知識圖譜補全模型(對偶模型)。具體地,原始模型和對偶模型之間的「對偶關係」又可以表示爲
假設 是所有已知正確三元組的集合。當我們訓練一個基於距離的模型時,我們通常會在 上最大化 ,而從上式我們知道
很顯然, 恰好是未加正則的張量分解模型的目標。因此,對偶關係爲我們提供瞭如下正則項
我們稱上述正則項爲 Basic DURA。
很明顯,Basic DURA 適用與 爲非對角陣的傾向,適用範圍相較 正則更廣。
5.2 Basic DURA 爲何有效
我們將從直覺上給出 Basic DURA 爲何能夠有效提升張量分解知識圖譜補全模型的性能。如果多個尾實體能夠使得三元組 成立,那麼DURA將促使它們具有相似的嵌入(embeddings)。
首先,我們可以斷言,如果多個尾實體能夠使得三元組 成立,他們應該具有相近的語義。如在下圖中,我們已知(貓科動物,包含,老虎)和(貓科動物,包含,獅子)兩個三元組,則實體”老虎“和”獅子“在語義上是相近的。
進一步,我們可以斷言,如果兩個實體具有相近的語義,那麼它們應該具有相似的嵌入。如果”老虎“和”獅子“具有相似的嵌入,我們又已知(老虎,是,哺乳動物)這一三元組,那麼我們就可以對(獅子,是,哺乳動物)這一未知三元組進行補全。
然而,由於內積相似度度量的特性,在一個基於張量分解的知識補全模型中,即使尾實體具有完全不同的嵌入,三元組 也可以具有相同的打分(如下左圖所示)。這在一定程度上會影響對未知三元組的預測。
在加入 DURA 之後,我們事實上通過歐氏距離引入了 和 應該較爲相近的先驗,因此尾實體的嵌入會被限制在一個較小的範圍內(如下右圖所示),從而有利於知識圖譜的補全。
5.3 DURA
由內積的性質我們可知
類似地,當多個頭實體能夠使得三元組 成立時,該正則項能夠使得這些頭實體的嵌入較爲接近。
將兩個不同方向的正則項相結合,我們得到「對偶誘導正則」(「DU」ality-induced「R」egul「A」rizer, 「DURA」)的最終形式
5.4 DURA的理論性質
當我們放寬正則項的求和條件 至所有可能的實體和關係,DURA 具有如下形式
其中 和 分別是實體和關係的數目。
如果我們進一步假設關係嵌入矩陣 爲對角陣,我們有如下定理
在上述定理中, 是張量 的 2 階核範數(nuclear 2-norm)[引用nuclear],即矩陣跡範數(trace norm)在張量情形下的推廣。
上述定理說明,在給定一些假設的情況下,DURA 事實上給出了張量 的 2 階核範數的一個上界。
實驗結果
6.1 知識圖譜補全任務
我們在三個常用知識圖譜補全數據集 WN18RR、FB15k-237、YAGO3-10 上驗證了 DURA 的有效性。所考慮的基於張量分解的知識圖譜補全模型包括目前流行的 CP、ComplEx [4] 和 RESCAL [5]。所採用的評價指標包括 MRR(Mean Recipocal Rank),H@N(Hits at N, N=1,10),越高的 MRR 和 H@N 代表越好的性能。實驗結果如下表所示。
可以看出,DURA 爲三個模型帶來了穩定的性能提升。尤其值得一提的是,RESCAL 作爲最早被提出的知識圖譜補全模型之一(2011年),因其參數量較大而較易過擬合,在過去的幾年中表現一直較差。但在加入 DURA 後,RESCAL 在 WN18RR 上取得了 MRR 爲 0.498 的好成績,超越了之前的所有模型。
6.2 與其他正則的對比
我們在 CP、ComplEx 和 RESCAL 三個模型上對比了 DURA、 (即 FRO)、 三種正則的性能,結果如下表所示。注意 無法應用於 RESCAL 模型。
從上表中可以看出,相比 和 正則,DURA 在適用範圍和有效性上都具有明顯優勢。
6.3 可視化
爲驗證”如果多個尾實體能夠使得三元組 成立,那麼 DURA 將促使它們具有相似的嵌入(embeddings)”這一描述,我們利用 T-SNE 對加入 DURA 前後的實體嵌入進行了可視化。結果如下圖所示,其中每一個數據點代表一個尾實體,而相同顏色的數據點代表這些尾實體能夠使得同一 成立。
從上圖可以看出,在加入 DURA 後,能夠使得同一 成立的尾實體將傾向於擁有更爲相似的嵌入。
總結
在知識圖譜補全任務上,基於張量分解模型和基於距離的模型之間具有對偶性質,利用該對偶性,我們提出了一種面向張量分解模型的對偶誘導正則 DURA。DURA 能夠廣泛應用於多種不同的張量分解模型,且能夠帶來穩定而又顯著的性能提升。
關於作者
張佔秋,2018 年畢業於中國科學技術大學數學科學學院,獲得理學學士學位。現於中國科學技術大學電子工程與信息科學系的 MIRA Lab 實驗室攻讀博士生,師從王傑教授。研究興趣包括知識圖譜與自然語言處理。
參考文獻
[1] Lacroix, T., Usunier, N. & Obozinski, G.. (2018). Canonical Tensor Decomposition for Knowledge Base Completion. Proceedings of the 35th International Conference on Machine Learning, in PMLR 80:2863-2872
[2] Ruffinelli, D., Broscheit, S., & Gemulla, R. (2019). You CAN teach an old dog new tricks! on training knowledge graph embeddings. In International Conference on Learning Representations.
[3] Friedland, S., & Lim, L. H. (2018). Nuclear norm of higher-order tensors. Mathematics of Computation, 87 (311), 1255-1281.
[4] Trouillon, T., Welbl, J., Riedel, S., Gaussier, E. & Bouchard, G.. (2016). Complex Embeddings for Simple Link Prediction. Proceedings of The 33rd International Conference on Machine Learning, in PMLR 48:2071-2080.
[5] Nickel, M., Tresp, V., & Kriegel, H. P. (2011). A three-way model for collective learning on multi-relational data. Proceedings of the 28th International Conference on Machine Learning, in PMLR 11:809-816
更多閱讀
#投 稿 通 道#
讓你的論文被更多人看到
如何才能讓更多的優質內容以更短路徑到達讀者羣體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成爲一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得或技術乾貨。我們的目的只有一個,讓知識真正流動起來。
???? 來稿標準:
• 稿件確係個人原創作品,來稿需註明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)
• 如果文章並非首發,請在投稿時提醒並附上所有已發佈鏈接
• PaperWeekly 默認每篇文章都是首發,均會添加“原創”標誌
???? 投稿郵箱:
• 投稿郵箱:[email protected]
• 所有文章配圖,請單獨在附件中發送
• 請留下即時聯繫方式(微信或手機),以便我們在編輯發佈時和作者溝通
????
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關於PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公衆號後臺點擊「交流羣」,小助手將把你帶入 PaperWeekly 的交流羣裏。