知識圖譜的構建流程

簡單介紹關於知識圖譜的構建的流程:
1. 數據來源:(數據層(Data Level)的構建)
百科類數據(Wikipedia半結構化, Freebase結構化), 
結構化數據(DBpedia 和YAGO 等通用語義數據集,還包括如MusicBrainz 和DrugBank 等特定領域的知識庫),
半結構化數據,自動化的AVP(屬性-值對)抽取
以及搜索日誌挖掘,發現最新出現的各種實體,基於Bootstrapping的多類別協同模式學習
      Bootstrapping方法的過程:
  • Given a hand of seed NEs of a category C: 
  • Learning context features of the seeds from queries 
  • Extracting new seed entities of category C using the learnt context  features 
  • Expanding context features using the expanded seed set
#屬性-值對(attribute-value pair,又稱AVP)用來刻畫實體的內在特性;而關係(relation)用來連接兩個實體,刻畫它們之間的關聯

2. 從抽取圖譜(Extraction Graphs)到知識圖譜:
(1)實體對齊(Object Alignment),針對多種來源數據用聚類算法,關鍵在於定義合適的相似度度量
(2)知識圖譜schema構建,相當於爲其建立本體(Ontology),最基本的本體包括概念、概念層次、屬性、屬性值類型、關係、關係定義域(Domain)概念集以及關係值域(Range)概念集。
自頂向下的方式是指通過本體編輯器(Ontology Editor)預先構建本體,本體構建不是從無到有的過程,而是依賴於從百科類和結構化數據得到的高質量知識中所提取的模式信息。
自底向上的方式則通過上面介紹的各種抽取技術,特別是通過搜索日誌和Web Table抽取發現的類別、屬性和關係,並將這些置信度高的模式合併到知識圖譜中。合併過程將使用類似實體對齊的對齊算法。
(3)不一致性的解決。
優先採用那些可靠性高的數據源(如百科類或結構化數據)抽取得到的事實。

3. 知識圖譜的挖掘:
(1)推理,針對屬性;針對關係
(2)實體重要性排序,
當查詢涉及多個實體時,搜索引擎將選擇與查詢更相關且更重要的實體來展示。實體的相關性度量需在查詢時在線計算,而實體重要性與查詢無關可離線計算,搜索引擎公司將PageRank算法 應用在知識圖譜上來計算實體的重要性
(3)相關實體挖掘。使用主題模型(如LDA)發現虛擬文檔集中的主題分佈。其中每個主題包含1個或多個實體,這些在同一個主題中的實體互爲相關實體。當用戶輸入查詢時,搜索引擎分析查詢的主題分佈並選出最相關的主題。

4. 知識圖譜的更新和維護。
(1)Type和Collection的關係
搜索引擎公司還通過自動化算法從各種數據源抽取新的類型信息,如果Collection中的某一種類型能夠長期的保留,發展到一定程度後,由專業的人員進行決策和命名並最終成爲一種新的Type。
(2)結構化站點包裝器的維護
搜索引擎會定期檢查站點是否存在更新,使用最新的站點包裝器進行AVP抽取
(3) 知識圖譜的更新頻率
Type對應的實例往往是動態變化的
(4) 衆包(Crowdsourcing)反饋機制
用戶可以對搜索結果中展現的知識卡片所列出的實體相關的事實進行糾錯。當很多用戶都指出某個錯誤時,搜索引擎將採納並修正

5.知識圖譜在搜索中的應用
(1)查詢理解
搜索引擎並非展現實體的全部屬性,而是根據當前輸入的查詢自動選擇最相關的屬性及屬性值來顯示。當要展現的實體被選中之後,利用相關實體挖掘來推薦其他用戶可能感興趣的實體供進一步瀏覽
(2)問題回答
知識圖譜對於搜索所帶來的另一個革新是:直接返回答案,而不僅僅是排序的文檔列表。
搜索引擎不僅要理解查詢中涉及到的實體及其屬性,更需要理解查詢所對應的語義信息。搜索引擎通過高效的圖搜索,在知識圖譜中查找連接這些實體及屬性的子圖並轉換爲相應的圖查詢(如SPARQL )
SPARQL:是一種用於RDF上的查詢語言http://www.w3.org/TR/rdf-sparql-query/

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章