1.1 知識圖譜的基本概念
分爲狹義與廣義概念。
狹義的知識圖譜特指一類知識表示,本質上是一種大規模語義網絡。
廣義的知識圖譜是大數據時代知識工程一系列技術的總稱,在一定程度程度上指代大數據知識工程這一新興學科。
1.1.1 知識圖譜的狹義概念
- 知識圖譜作爲語義網絡的內涵
知識圖譜是一種大規模語義網絡,包括實體(entity)、概念(concept)及其之間的各種語義關係。
要點:
- 其是語義網絡,這是知識圖譜的本質;
- 其是大規模的,這是知識圖譜與傳統語義網絡的根本區別。
語義網絡是一種以圖形化的(Graphic)形式通過點和邊表示知識的方式,其基本組成元素是點和邊。語義網絡的點可以是實體、概念和值,如下圖所示。
(1)實體。實體有時也會被稱作對象(Object)或實例(Instance)。
(2)概念。概念又被稱爲類別(Type)、類(Category或Class)等。
(3)值。每個實體都有一定的屬性值。
知識圖譜中的邊可以分爲屬性(Property)和關係(Relation)兩類。關係可以認爲是一類特殊的屬性,當實體的某個屬性值也是一個實體時,這個屬性實質上就是關係。
語義網絡中的邊按照其兩端節點的類型可以分爲概念之間的子類(subclassof)關係、實體與概念之間的實例(instanceOf)關係,以及實體之間的各種屬性關係,如上圖所示。
- 知識圖譜與傳統語義網絡的區別
(1)規模巨大。知識圖譜具有巨大的規模。
(2)語義豐富。兩個方面:知識圖譜富含各類語義關係;語義關係的建模多樣。
(3)質量精良。大數據多源特性使得我們可以通過多個來源驗證簡單事實。
(4)結構友好。知識圖譜通常可以表示爲三元組,這是典型的圖結構。三元組可以藉助RDF(Resource Description Framework)進行表示。
知識圖譜構建與應用獨特挑戰:
(1)高質量模式缺失。
(2)封閉世界假設不再成立。
(3)大規模自動化知識獲取成爲前提。
- 知識圖譜與本體的區別
本體刻畫人們認知一個領域的基本框架,而知識圖譜富含的是實例以及關係實例。
1.1.2 知識圖譜的廣義概念
知識圖譜作爲一種技術體系,指代大數據時代知識工程的一系列代表技術的總和。
1.2 知識圖譜的歷史沿革
1.2.1 知識圖譜溯源
- 傳統知識工程
知識工程屬於符號主義。符號主義認爲知識是智能的基礎。傳統人工智能專家認爲人工智能的核心問題是知識表示、推理和應用。
傳統知識工程所成功解決的問題普遍具有規則明確、應用封閉的特點,比如幾何定理證明。
傳統的專家系統需要藉助大量的人力參與,如下圖所示
- 傳統知識工程的侷限性
(1)隱形知識與過程知識等難以表達
(2)知識表達的主觀性的不一致性
(3)知識難以完備
(4)知識更新困難
1.2.1 大數據知識工程
- 互聯網與大數據應用催生了知識圖譜
互聯網應用特點:
- 規模巨大
- 精度要求相對不高
- 知識推理困難
- 大數據時代給知識圖譜的發展帶來了新機遇
(1)數據、算力和模型的飛速發展使得大規模自動化知識獲取成爲可能。
(2)衆包技術使得知識的模塊化驗證成爲可能。
(3)高質量用戶生成內容提供了高質量知識庫來源
1.3知識圖譜的研究意義
1.3.1 知識圖譜的認知智能的基石
(1)知識圖譜使能機器語言認知。
實現機器對自然語言的理解所需要的條件:
- 規模必須足夠巨大才能理解不同的實體和概念
- 語義關係必須足夠豐富才能理解不同的關係
- 結構必須足夠友好才能爲機器所處理
- 質量必須足夠精良才能讓機器對現實世界產生正確的理解
(2)知識圖譜賦能可解釋人工智能
(3)知識圖譜有助於增強機器學習的能力
1.3.2 知識引導成爲解決問題的重要方式之一
當下,計算機解決問題主要採用數據驅動的方式,也就是從樣本數據中建立統計模型,挖掘統計規律來解決問題。
單純依賴統計模式難以有效解決很多實際問題,並且單純的數據驅動方式仍然面臨效果的“天花板”,如下圖所示。
實際應用越來越要求將數據驅動和知識引導相結合,以突破基於統計學習的純數據驅動的效果瓶頸。
1.4 知識圖譜的應用價值
1.4.1 數據分析
1.4.2 智能搜索
1.4.3 智能推薦
1.4.4 自然人機交互
1.4.5 決策支持
1.5 知識圖譜的分類
首先認識數據、信息和知識之間的聯繫和區別
- 數據是對客觀世界的符號化記錄
- 信息是被賦予意義的數據
- 知識的人類對信息的提煉和總結的結果,是人類認識世界的結果
1.5.1 知識圖譜中的知識分類
(1)事實知識
(2)概念知識
(3)詞彙知識
(4)常識知識