【Ontology】本體(Ontology)綜述

本體作爲一種能在語義和知識層次上描述領域概念的建模工具,其目標是捕獲相關領域的知識,確 定該領域內共同認可的詞彙,通過概念之間的關係來描述概念的語義,提供對該領域知識的共同理解。語義Web(the Semantic Web)是在本體理論基礎之上對現有Web所進行的擴展[15],其目標是使Web上的信息具有計算機可以理解的語義,在本體的支持下實現信息系統間語義 上的互操作性,以及對Web資源所進行的智能訪問和檢索[16]。充分實現語義Web的潛力,需要大規模採用基於本體的方法來共享信息和資源,本體是語義 Web得以實現的基礎和關鍵。

本章主要介紹論文工作涉及的本體、語義Web、語義Web服務等基本概念。

1.1 Ontology

Ontology 的概念最早源於亞里士多德(公元前384-322年)對事物存在本質的研究,在哲學上的定義爲“對世界上客觀存在物的系統地描述,即存在論”,是客觀存在 的一個系統的解釋或說明,關心客觀現實的抽象本質[17]。近幾年,Ontology作爲信息抽象和知識描述的工具,被計算機領域所採用。

計 算機領域的Ontology是否應該叫做“本體”,存在一定的爭議。目前,Ontology主要有“本體”和“本體論”兩種中文譯法。大連海事大學智能信 息處理學科梯隊的黃映輝教授從人工智能引入Ontology時候Ontology的定義開始,分析了Ontology的哲學意義和Ontology被引入 到計算機領域後的實質內容,認爲計算機領域的Ontology不應該譯作“本體”或者“本體論”。Ontology作爲從哲學領域借用的術語,其實質是 “概念模型”,應該被翻譯爲“本體論模型”[19]。

將Ontology翻譯成“本體”已經是計算機領域一個約定俗成的做法。本文在討論Ontology的時候,爲了行文方便並符合業界習慣,仍然使用“本體”的說法。這裏討論的本體的相關知識,均限於計算機領域的本體。

1.1.1 本體的定義

本 體在計算機領域的定義經歷了一個演化過程。在人工智能界,最早給出本體定義的是Neches等人,他們將本體定義爲“給出構成相關領域詞彙的基本術語和關 系,以及利用這些術語和關係構成的規定這些詞彙外延的規則的定義[19]”。1993年,Gruber給出了本體的一個最爲流行的定義,即“本體是概念模 型的明確的規範說明[20]”。後來,Borst在此基礎上,給出了本體的另外一種定義:“本體是共享概念模型的形式化規範說明[21]”。

Studer 等人在對本體做了深入研究後,擴展了Gruber的定義,認爲“本體是共享概念模型的明確的形式化規範說明(An ontology is a formal, explicit specification of a shared conceptualisation.)[22]”。該定義包含四層含義:

1)概念模型(Conceptualization),即本體是通過抽象客觀世界的概念而得到的模型,它表示的含義獨立於具體的環境狀態;

2)明確性(Explicit),即本體所使用的概念及在這些概念之上的約束都有明確的定義,沒有二義性;

3)形式化(Formal),即本體是計算機可處理的,而不是自然語言;

4)共享(Shared),即本體體現的是共同認可的知識,反映的是相關領域中公認的概念集合,它所針對的是團體而不是個體。

本體的目標是捕獲相關的領域的知識,提供對該領域知識的共同理解,確定該領域內共同認可的詞彙,並從不同層次的形式化模式上給出這些詞彙和詞彙之間相互關係的明確定義[23]。

1.1.2 本體建模元語

本體中的知識是通過類、關係、函數、公理和實例來形式化地表示的[20]。Perez等人用分類法組織了本體,歸納出5個基本的建模元語[24]:

1)          類(Classes)或概念(Concepts)

指任何事務,如工作描述、功能、行爲、策略和推理過程。從語義上講,它表示的是對象的集合,其定義包括概念的名稱,與其他概念之間的關係的集合,以及用自然語言對概念的描述。

2)          關係(Relations)

在領域中概念之間的交互作用,形式上定義爲n維笛卡兒積的子集。如子類關係(subClassOf)。在語義上關係對應於對象元組的集合。

3)          函數(Functions)

一類特殊的關係。該關係的前n-1個元素可以唯一決定第n個元素。形式化的定義爲F: C1×C2×…×Cn-1→Cn。如motherOf就是一個函數,motherOf(x, y)表示y是x的母親。

4)          公理(Axioms)

代表永真斷言,如概念乙屬於概念甲的範圍。

5)          實例(Instances)

代表元素。從語義上講實例表示的就是對象。

本 體與面向對象的理論非常類似,但這兩者本質是不同的。本體是對某個領域靜態概念模型的描述。面向對象是一種軟件開發方法,主要思想是使用對象、類、繼承、 封裝、消息和多態等基本概念來構造系統。在面向對象的理論中,對象或類不僅包括描述對象靜態特徵的屬性,也包括描述對象動態特徵(行爲)的方法。對象的屬 性和方法結合在一起形成一個獨立的系統單位,儘可能對外隱蔽對象的內部細節,對外提供統一的接口。

1.1.3 本體描述語言

本 體描述語言起源於人工智能(Artificial Intelligence, AI)領域對知識表示的研究,這方面的本體描述語言主要有:KIF(Knowledge Interchange Format)[25]、Ontolingua[4]、OKBC(Open Knowledge Base Connectivity)[26]、OCML(Operational Conceptual Modeling Language)[27]、Frame logic[28]、Loom[29]等。近年來,隨着Web技術的發展,Web與本體理論的結合成爲必然趨勢,誕生了一些Web本體描述語言,主要有 RDF(Resource Description Framework)[30]、RDF Schema[31]和SHOE(Simple HTML Ontology Extension)[32]等。

描述邏輯(Description Logics, DLs)[33]是人工智能領域研究的一種重要的知識表示語言,目前正被積極應用於本體的描述。以描述邏輯爲基礎的本體描述語言主要有OIL[34]、DAML+OIL[35]和OWL[1]。

Web 本體語言OWL(Web Ontology Language, OWL)[1]是W3C2004年推薦的本體描述語言的標準,是在WWW上發佈和共享本體的語義標記語言。OWL作爲RDF/RDF(S)的擴展,是在 DAML+OIL的基礎上發展起來的,目的是提供更多的原語以支持更加豐富的語義表達並支持推理。OWL 有三個子語言:OWL Lite、OWL DL和OWL Full。其中,OWL Lite用於提供給那些只需要一個分類層次和簡單屬性約束的用戶。推理系統能夠保證計算完備性(即所有的結論都能被計算出來)和可判定性(即所有計算都在 有限時間完成)。OWL Full支持那些需要在語法自由的RDF上進行最大程度表達的用戶,它允許一個本體在預定義的(RDF或OWL)詞彙表上增加詞彙。

1.1.4 本體構建的準則

目前已有的本體很多,出於對各自問題域和具體工程的考慮,構造本體的過程也是各不相同的。由於沒有一個標準的本體構造方法,不少研究人員出於指導開發本體的目的,從實踐出發,提出了不少有益於構造本體的標準。下面列舉一些在實踐中被證明比較有用的本體構建準則。

1)          清晰性和客觀性(Clarity and Objectivity)[20]:本體應該通過客觀定義和自然語言文檔對所定義的術語給出明確的、客觀的語義定義。

2)          完全性(Completeness)[20]:本體所給出的術語定義是完整的,完全能表達所描述術語的含義。

3)          一致性(Coherence)[20]:由術語得出的推論與術語本身的含義是相容的,即支持與其定義相一致的推理,不會產生矛盾;所定義的公理以及用自然語言進行說明的文檔也應該具有一致性。

4)          最大單調可擴展性(Maximum Monotonic Extendibility)[20]:向本體中添加通用或專用的術語時,不需要修改其已有的概念定義和內容,支持在已有的概念基礎上定義新術語。

5)          最小本體承諾(Minimal Ontological Commitments)[20]:本體約定應該最小,對待建模對象應給出儘可能少的約束。而所謂的承諾,在本體中指的是對怎樣以一致的、相容的方式使用 共享詞彙所達成的共識。一般地,本體約定只要能夠滿足特定的知識共享需求即可,這可以通過定義約束最弱的公理以及只定義交流所需的詞彙來保證。

6)          本體描述原則(Ontological Distinction Principle)[36]:本體中的類應該是互不相交的。

7)          概念層次多樣化(Diversification of hierarchies)增強多繼承機制的能力[37]。

8)          模塊化設計(Modularity)以最小化模塊化之間的耦合度[38]。

9)          語義距離最小化(Minimization of the semantic distance)[37]:兄弟概念之間的語義距離最小化,儘可能把含義相似的概念抽象出來,用相同的元語來表示。

10)      命名標準化(Standardization of names)[37]:儘可能使用標準的名字。

在 這十條準則中,Gruber在1995年所給出的五條原則(上述十條原則的前五條)最具有影響力。這十條構建準則給出了構造本體的基本思路和框架,然而, 明顯的不足之處就是它們所反映的內容非常模糊且難於把握。目前人們普遍認爲,在構造特定領域的本體的過程中,需要領域專家的參與。

1.1.5 本體的應用

本體的應用主要涉及兩個方面:第一,本體作爲一種能在知識層提供知識共享和重用的工具在語義Web中的應用;第二,在信息系統中的應用,主要包括處理信息組織、信息檢索和異構信息系統互操作問題[23]。

常 規的基於關鍵詞的信息檢索技術已不能滿足用戶在語義上和知識上的需求,尋找新的檢索方法也就成爲目前研究的熱點。本體具有良好的概念層次結構和對邏輯推理 的支持,因而在信息檢索,特別是在基於知識的檢索中得到了廣泛的應用。由於本體具有能通過概念之間的關係來表達概念語義的能力,所以能夠提高檢索的查全率 (Recall)和查準率(Precision)。

傳統的信息集成技術很難解決 信息源之間的結構和語義的異構,要解決這些問題,根本的方法就是要減少、甚至消除在概念和用詞上的混亂,達成對事物相互一致的共同認識,並將其作爲一種統 一的框架和基礎。因此,將本體技術引入到信息集成中來,對異構信息進行形式化和規範化表示,以期解決傳統信息集成中存在的語法和語義異構問題。在信息集成 中使用本體具有以下優勢:首先,本體提供了一個共享詞彙庫,可作爲與數據源的穩定的概念接口,並且獨立於數據源模式;其次,本的描述能力可以解決同名異義 及異名同義,描述概念間的相互關係,顯示的描述數據的語義,支持相關信息源之間的信息交換,提高應用的互操作性,促進領域知識共享和重用;第三,由於本體 的描述能力,配合推理機可以進行一些推理查詢,發掘一些蘊涵的數據關係。

【轉自】http://imarine.blog.163.com/blog/static/51380183200861373316920/

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章