Ontology Understanding Without Tears——本體理解的一篇論文翻譯

  1. Introduction

目前爲止,還沒有同時利用結構和語義信息進行本體摘要的方法。基於此,本文將一個RDF/S數據庫看成兩個不同的但是相互連接的圖:模式層圖和數據層圖。這樣做就能在考慮所有數據的前提下給出本體摘要。

具體來說,本文的貢獻主要如下:

  1. 提出了自動生成RDFS摘要的新平臺,通過實例概括出模式層中最具代表性的概念。
  2. 爲了構建圖摘要,本系統綜合利用了知識庫中的結構信息和語義信息。將模式層和數據層的節點分開,根據屬性的類別(用戶定義或標準RDFS屬性)設定不同權重[d1] ,以選擇本體中最重要的和最相關的概念。
  3. 爲了識別重要概念,基於節點的相對基數和入度/出度定義了“相關度”指標。
  4. 我們想建立的摘要是針對原模式圖的子圖,因此,在篩選重要節點的基礎上,我們接下來選擇合適的路徑來連接重要節點。我們通過兩種算法,選取全局或局部最重要的邊。
  5. 我們給出了相關算法,闡述了其應用細節和複雜度。
  6. 我們的實驗分析結構顯示了我們算法的優越性。開始,我們將自己的算法和僅抽取重要概念的算法結構進行對比,展示了我們算法的優越性。然後,我們發現通過全局重要性的子圖選擇算法在幾乎所有情況下都表現最好。

據我們所知,本文算法是唯一結合本體模式層和數據層進行摘要的算法。支持通過高質量摘要模式圖進行知識庫的探索。

我們作品的前身已經在之前的RDF Digest文章裏寫過了。本文擴展了我們之前的工作。解決了處理空白節點的問題。本文提出了一種選擇重要概念間連邊的新算法,並提供了實現細節和複雜度分析。升級後的系統提供了更多元數據,來提升本體理解。提出了一種對帶實例本體的用戶評估方式,並用這種方式評估了本文得到的摘要圖的質量。此外,對比了本文算法和另外一種算法的運行時間。

本文架構:第二章介紹了我們之前研究的算法,第三章描述了我們算法中用到的用來篩選重要節點和連邊的公式。第四章提出了兩種選擇邊的方法,第五章給出了實現的系統。第六章對結果進行評估,第七章介紹了相關工作。最後,第八章對全文進行總結展望。

  1. Preliminaries

目前還沒有一種標準的選取RDFS圖中重要節點的方法。我們的目標是生成一個簡單且概括性強的摘要,同時兼顧模式層和數據層信息。我們基於RDFS進行摘要,但我們的方法同樣適用於OWL,只是在操作時只考慮其中的RDFS元素。

RDF數據的表示依賴於三種資源:URIs(U),literals(L)和blank nodes(B)。在本文中我們考慮三種資源:classes(C<U^B), properties(P<U), individuals(I<U^B)。集合C包括所有的類,包括RDFS類和XML數據(string, integer)。集合P包括所有屬性,除了鏈接實例和類的rdf:type。集合I包括除字面量外的所有實例。

本文將模式層和數據層分成兩個不同的圖(Gs,Gi)。模式層中的屬性可以有多個定義域和值域。屬性的URI作爲邊的標籤。這兩個圖通過一個函數聯繫起來,這個函數決定了每個實例對應的上層概念。

定義:RDFS/KB:一個RDFS/KB是一個四元組。V=(Gs,Gi,v,t).其中v是邊到URI的映射,t是實體到概念的映射。

P(v1,v2)表示一條邊,s表示模式層中的節點,c表示類節點。i表示實例節點。dpath(vs->vi)表示兩點之間路徑長度。

  1. Assessment Measures

尋找能高效描述整個模式層,並反映數據層數據分佈的概念。本節給出了模式層摘要需要有的屬性。

    1. 評估模式層節點重要性

已有算法利用PageRank在xml文件中計算節點重要性。對於RDFS,其他方法用瞭如度中心性、介數中心性、特徵向量中心性(加權的PageRank和HITS),對各種參數記性整合以表明RDFS的特性。還有人將度中心性和接近中心性結合用來計算節點間的相關度。

在本文中,我們認爲模式層節點的重要性應該通過其鄰接點和節點的可達性來計算。節點在數據層和模式層的連接我們都考慮在內。

具體地,我們首先通過節點對應的實例個數決定其重要性。隨後,我們結合節點的相對基數和在模式層的出邊、入邊數量和類型,來估計節點的重要性。最後,模式成節點的相關性通過對比其與鄰接點的中心性決定。

      1. 相對基數

然後就是各種參數的介紹。最後算出節點重要性。

  1. RDFS模式層摘要的構建
    1. 通過coverage maximization選擇子圖

選擇路徑的原則:1)路徑中所含節點的relevance 2)與路徑中節點相關的實例 3)路徑長度。

根據以上三原則,制定了路徑coverage的計算方法。

整個摘要的生成過程如上圖所示。把這種方式生成的摘要成爲CM 摘要模式圖。

證明了上述方法生成的摘要確實是CM摘要。所謂的CM摘要滿足以下三個條件:

  1. 所有重要性top n的節點都在摘要中
  2. 所有top n的節點相互可達
  3. 被選中的兩點間path都是兩點間coverage最大的path

分析了算法複雜度,複雜度小於O(|V|^2)。

    1. 通過relevance maximization選擇子圖

定義了路徑的reference是其中包含的各個節點的reference。

定義了RM摘要需滿足以下條件:

  1. 所有重要性top n的節點都在摘要中
  2. 所有top n的節點相互可達
  3. 被選中的兩點間path都是兩點間reference最大的path

證明了上述方法生成的摘要確實是RM摘要。

分析了算法複雜度,複雜度小於O(|V|^3)。

  1. Evaluation

總共用了6個本體進行評估:BIOSPHERE, Financial, Aktors Portal, CRM, LUBM, eTMO。

通過3個階段評估算法的有效性:

階段一:前三個本體用於對比本文算法和identifying key concepts的算法和personalized算法。比較這三個算法篩選重要概念節點的能力。階段一本體數據都僅有模式層。

階段二:爲了給包含實例層的本體做實驗,用了接下來三個本體數據,與Peroni等人的數據進行對比。

階段三:因爲我們的系統是唯一返回整個圖作爲結果的系統,在最後階段我們將自己生成的結果與標準本體作對比。

最後,我們根據運行時間評估了自己算法的效率,並與Peroni等人的算法運行時間對比。所有實驗數據都可以在網上獲得。http://www.ics.forth.gr/~kondylak/SWJ_2016.zip


 [d1]這個權重大小是人爲規定的。如何設計一種算法生成權重?

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章