王昊奮知識圖譜行業應用課程筆記

應用

Google:搜索,things not strings

智能硬件

通用知識圖譜:

  • 廣度,強調實體,以常識性知識爲主,“結構化的百科知識”
  • 自底向上,很難形成全局的本體上的管理
  • 使用者是普通用戶

項目如:

  • 語言類的:WordNet,MIT-ConceptNet5的中文部分,漢語開放詞網(Chinese Open WordNet)
  • 百科類:DBpedia,中文通用百科知識圖譜(CN-Dbpedia),Zhishi.me,PKU-PIE知識庫

行業知識圖譜:

  • 特定領域,深度和完備性,“基於語義技術的行業知識庫”
  • 準確度非常高,複雜分析應用和決策支持,
  • 嚴格與豐富的數據模式
  • 使用者是行業人員

首先想到的是 Palantir

行業知識圖譜數據的特點:

  • 數據來源多:內部,互聯網,第三方
  • 數據類型多:結構化,半結構化,非結構化
  • 數據模式無法預先確定:模式在數據出現後才能確定,並且隨着數據增長和任務不斷演變
  • 數據量大:TB,PB級別

金融證券,生物醫療,圖書情報,電商,農業,政府,電信,出版,看OpenKG中的項目

通用知識圖譜可以作爲行業知識圖譜的基礎,行業知識圖譜又可以形成通用知識圖譜的一部分

企業知識圖譜:

  • 企業風險評估、企業路徑發現,企業控制發現,上市企業只能問答(股票問問)
  • 用戶爲:銀行、投行、政府。。。

金融交易知識圖譜:

  • 輔助信貸審覈
  • 反欺詐
  • 異常(交易,客戶)分析

醫療知識圖譜:

  • 中醫藥知識服務平臺
  • Watson診斷

圖情資源知識圖譜:

  • 知識導航和資源展示
  • 知識點推薦和搜索
  • 圖情資源統計

挑戰

企業大數據的挑戰:

  • 多源異構數據難融合
  • 數據模式動態變遷難:自由可擴展模式
  • 非結構數據計算機難理解
  • 數據使用專業程度高
  • 分散的數據難以統一消費利用

解決方案:

  • 使用知識圖譜(本體)對各種類型的數據進行抽象建模
  • 使用可支持數據模式動態變化的知識圖譜的數據存儲
  • 利用信息抽取技術,進行結構化,形成知識圖譜形式的知識
  • 在知識融合的基礎上,基於語義檢索、智能問答、圖計算、推理、可視化等技術,提供統一的數據檢索、分析和利用平臺,降低數據使用門檻

行業知識圖譜生命週期

建模——獲取——融合——存儲——計算——應用

行業知識圖譜的技術棧:

  • RDF:建模
  • SPAQL:檢索
  • RDFS, OWL:推理

RDF(Resource Description Framework資源描述框架):

  • 是語義網標準中的第一層
  • RDF的含義
  • R:頁面、圖片、視頻等任何具有URI標識符的資源;
  • D:屬性、特徵和資源之間的關係
  • F: 模型、語言和這些描述的語法
  • 三元組模型,每一份知識分解爲:SPO(subject predicte object主謂賓)

  • 構建鏈接資源的圖模型,三元組可以看成是圖中的弧

  • 各種序列化表示方法:Turtle, TriG, N-Triples, N-Quads, JSON, RDFa

OWL:RDFS的擴展

  • 複雜類: 交、並、補
  • 屬性約束:存在量化、全稱量化
  • 基數約束:最大基數約束、最小基數約束
  • 屬性特徵:反、對稱、非對稱、不相交、自反
  • 屬性鏈

SPARAL:

  • RDF的查詢語言,基於RDF數據模型
  • 可以對不同的數據集撰寫複雜的連接
  • 由所有主流圖數據庫支持

知識建模

一站式工具:

  • LOD2:沒有中文支持
  • Stardog:僅對結構化數據,沒有知識融合

策略:

  • 使用套裝工具
  • 擴充套裝工具
  • 生命週期中的相應工具
  • 擴充生命週期中的相應工具
  • 從零開始
    一般是選擇2,3,4

金融:平安,螞蟻金服

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章