應用
Google:搜索,things not strings
智能硬件
通用知識圖譜:
- 廣度,強調實體,以常識性知識爲主,“結構化的百科知識”
- 自底向上,很難形成全局的本體上的管理
- 使用者是普通用戶
項目如:
- 語言類的:WordNet,MIT-ConceptNet5的中文部分,漢語開放詞網(Chinese Open WordNet)
- 百科類:DBpedia,中文通用百科知識圖譜(CN-Dbpedia),Zhishi.me,PKU-PIE知識庫
行業知識圖譜:
- 特定領域,深度和完備性,“基於語義技術的行業知識庫”
- 準確度非常高,複雜分析應用和決策支持,
- 嚴格與豐富的數據模式
- 使用者是行業人員
首先想到的是 Palantir
行業知識圖譜數據的特點:
- 數據來源多:內部,互聯網,第三方
- 數據類型多:結構化,半結構化,非結構化
- 數據模式無法預先確定:模式在數據出現後才能確定,並且隨着數據增長和任務不斷演變
- 數據量大:TB,PB級別
金融證券,生物醫療,圖書情報,電商,農業,政府,電信,出版,看OpenKG中的項目
通用知識圖譜可以作爲行業知識圖譜的基礎,行業知識圖譜又可以形成通用知識圖譜的一部分
企業知識圖譜:
- 企業風險評估、企業路徑發現,企業控制發現,上市企業只能問答(股票問問)
- 用戶爲:銀行、投行、政府。。。
金融交易知識圖譜:
- 輔助信貸審覈
- 反欺詐
- 異常(交易,客戶)分析
醫療知識圖譜:
- 中醫藥知識服務平臺
- Watson診斷
圖情資源知識圖譜:
- 知識導航和資源展示
- 知識點推薦和搜索
- 圖情資源統計
挑戰
企業大數據的挑戰:
- 多源異構數據難融合
- 數據模式動態變遷難:自由可擴展模式
- 非結構數據計算機難理解
- 數據使用專業程度高
- 分散的數據難以統一消費利用
解決方案:
- 使用知識圖譜(本體)對各種類型的數據進行抽象建模
- 使用可支持數據模式動態變化的知識圖譜的數據存儲
- 利用信息抽取技術,進行結構化,形成知識圖譜形式的知識
- 在知識融合的基礎上,基於語義檢索、智能問答、圖計算、推理、可視化等技術,提供統一的數據檢索、分析和利用平臺,降低數據使用門檻
行業知識圖譜生命週期
建模——獲取——融合——存儲——計算——應用
行業知識圖譜的技術棧:
- RDF:建模
- SPAQL:檢索
- RDFS, OWL:推理
RDF(Resource Description Framework資源描述框架):
- 是語義網標準中的第一層
- RDF的含義
- R:頁面、圖片、視頻等任何具有URI標識符的資源;
- D:屬性、特徵和資源之間的關係
- F: 模型、語言和這些描述的語法
-
三元組模型,每一份知識分解爲:SPO(subject predicte object主謂賓)
-
構建鏈接資源的圖模型,三元組可以看成是圖中的弧
-
各種序列化表示方法:Turtle, TriG, N-Triples, N-Quads, JSON, RDFa
OWL:RDFS的擴展
- 複雜類: 交、並、補
- 屬性約束:存在量化、全稱量化
- 基數約束:最大基數約束、最小基數約束
- 屬性特徵:反、對稱、非對稱、不相交、自反
- 屬性鏈
SPARAL:
- RDF的查詢語言,基於RDF數據模型
- 可以對不同的數據集撰寫複雜的連接
- 由所有主流圖數據庫支持
知識建模
一站式工具:
- LOD2:沒有中文支持
- Stardog:僅對結構化數據,沒有知識融合
策略:
- 使用套裝工具
- 擴充套裝工具
- 生命週期中的相應工具
- 擴充生命週期中的相應工具
- 從零開始
一般是選擇2,3,4
金融:平安,螞蟻金服