知識圖譜+Recorder︱中文知識圖譜API與工具、科研機構與算法框架

 

文章目錄

一、知識圖譜商業應用

01 唯品金融大數據

使用的是OrientDB,Orientdb提供了大量的接口, 其中最常用的就是Gremlin和sql。

Gremlin是Apache TinkerPop 框架下的圖遍歷語言。Gremlin是一種函數式數據流語言,可以使得用戶使用簡潔的方式表述複雜的圖的遍歷或查詢,大部分圖數據庫都支持Gremlin。示例圖總共擁有12個節點(Vertex) 11條邊(Edge)。1521537893115977.png

唯品金融在使用Orientdb的開發過程中遇到的最大問題,是數據庫初始化時的批量寫入速度較慢, 由於Vertex和Edge數量在10億數量級,在沒有優化的情況下,單臺服務器寫入完整數據需要幾天。

這裏寫圖片描述


02 PlantData知識圖譜數據智能平臺

地址:http://www.hiekn.com/KGIndex/index.html

這裏寫圖片描述

PlantData是一個用知識圖譜技術解決數據關聯、數據語義、數據智能的平臺。

自主研發的PlantData圖譜數據智能平臺,致力於推進知識圖譜在產業界的落地發展,讓數據智能更好的支撐商業智能和人工智能。

多源異構數據,其中非結構化數據有一定比例;

數據中存在一定數量不同類別的實體;

業務上更加關注數據中實體的關聯,而不僅僅是數據本身…


03 拍拍貸圖數據庫技術

目前將用戶信息,設備信息及社交關係構建了一個異構網絡,並將該異構網絡圖應用在用戶關聯分析及反欺詐檢測場景。

傳統的方式上,我們的數據都是存儲在RDMS上,要查詢用戶的關聯關係的時候,都是通過關聯多張表來實現。但是這種方式存在很多的問題:

  • a. 這些表相應都較大,在做表關聯的時候效率非常低下;
  • b. 對於關係的層次支持非常有限,出入度很大的結點,產生的中間結果會非常大;
  • c. 對於圖上的查詢不夠靈活。

這些都極大地限制了我們分析能力和分析效率。出於以上這些痛點,我們引入了titan圖形數據庫。每天會通過改寫的Titan Bulkload將10億+結點信息和500億+左右的關係數據導入Titan後臺HBase生成一張包含13類節點和15類邊的複雜異構網絡。通過該網絡,可以方便快速地回答以下類似問題:1) 和用戶A關聯的用戶有哪些;2) 和用戶A關聯的用戶有什麼特徵;3) 用戶A和用戶B怎麼關聯在一起的。

下圖是我們將圖數據庫應用於反欺詐中的示例圖:

這裏寫圖片描述

根據原始的數據圖我們可以對用戶做以下調查分析,來確定特定的用戶是不是欺詐用戶或者是不是與欺詐用戶有關聯:

  • 通過特定規則篩選可疑用戶
  • 查看與可疑用戶有特定關聯的用戶
  • 查看與可疑用戶有特定關聯的所有用戶組成的子網的網絡特徵及用戶特徵
  • 分析特定用戶可以通過什麼樣的關聯關係關聯在一起
  • 最多可分析6層關聯關係的數據

通過該方式,我們大大減少了調查過程中的工作量,整體效率提升了25%+。


04 CN-DBpedia

樣例數據文件是txt格式,每行一條數據,每條數據是一個(實體名稱,屬性名稱,屬性值)的三元組,中間用tab分隔,具體如下所示。

【復旦大學 簡稱 復旦】

包含900萬+的百科實體以及6700萬+的三元組關係。其中mention2entity信息110萬+,摘要信息400萬+,標籤信息1980萬+,infobox信息4100萬+

該數據僅供學術研究使用,商用請聯繫我們獲取授權

http://kw.fudan.edu.cn/cndbpedia/download/


05 OpenKG.CN——開放的中文知識圖譜

中文開放知識圖譜(簡稱OpenKG.CN)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。

知識圖譜旨在通過建立數據之間的關聯鏈接,將碎片化的數據有機的組織起來, 讓數據更加容易被人和機器理解和處理,併爲搜索、挖掘、分析等提供便利,爲人工智能的實現提供知識庫基礎。知識圖譜涉及的技術領域包括:知識表示、自然語言理解、智能問答、知識抽取、鏈接數據、圖數據庫、圖挖掘、常識推理等。

這裏寫圖片描述


06 楚辭

楚辭以語義網爲理論基礎,致力於建設中文語義知識庫,解決歧義問題,把知識嵌入到各類信息中。

這裏寫圖片描述

知識結構中有:

項目描述(DOAP)詞彙集
項目描述(DOAP)詞彙集使用了W3C的RDF和網絡本體語義進行描述。

Muninn墳墓本體
Muninn墳墓本體的意思是用於處理人類的遺體。

還有比較好玩的:

關於功夫、功法的本體、關於能力、技能的本體、有關五行的基礎本體、有關感覺的基礎本體、有關症狀的本體、有關商業模式畫布的本體

聯誼的nodes,還有幾個方向,不過好像裏面沒貨

這裏寫圖片描述


07 海致大數據

http://www.haizhi.com/solution.html

海致大數據核心團隊在參與研發了全球第一個中文通用知識圖譜平臺之後,致力於將這一大數據時代的核心技術向金融產業進行垂直化研發,推出了業界首個金融領域知識圖譜平臺——海致智能金融知識圖譜1.0,其具備強大的自然語言處理能力,包括模板識別、實體識別、情感分析等,也具備領先的關係挖掘算法引擎,是海致大數據多年研發與客戶服務的最新成果。

這裏寫圖片描述


08 騰訊雲星圖

這裏寫圖片描述

是一個圖數據庫和圖計算引擎的一體化平臺:融合治理異構異質數據;提供關聯查詢、可視化圖分析、圖挖掘、機器學習和規則引擎;支持萬億關聯關係數據的快速檢索、查找和瀏覽;挖掘隱藏關係並模型化業務經驗。作爲金融AI風控等泛安全領域知識圖譜解決方案,星圖增強企業業務,催新商業模式。

  • 金融
    • 星圖智能平臺運用大數據、知識圖譜、人工智能等技術,並圍繞監管科技服務於金融行業,可提升金融機構合規和風控能力,從而幫助實現行業人工智能,爲金融環境快速而穩健的發展貢獻前沿科技的力量。在對公業務中,星圖可深耕大數據,幫助金融合作伙伴存儲其商業客戶大數據,梳理客戶關係以高效挖掘潛在商業價值;在對私業務方面,星圖可在預測新客戶的潛在風險和檢測惡意用戶團伙等方面提供精準服務。
  • 泛安全
    • 星圖智能平臺從大數據中深度挖掘關聯關係,可準實時分析多至萬億級海量關係數據,轉化爲關係圖譜數據,編織線上線下社交的泛安全專屬知識圖譜。結合專屬的圖計算引擎、機器學習技術和業務專家經驗打造泛安全人工智能:線上可幫助新興互聯網公司梳理用戶關係實現精準營銷等,線下可有力支撐公安機關展開情報研判分析、犯罪團伙跟蹤以及重大事情預警等。

09 網感至察

這裏寫圖片描述
這裏寫圖片描述

10 慧科技術 - 商業AI(NLP + 品牌Logo識別)

https://www.wisers.com.cn/
在這裏插入圖片描述

在這裏插入圖片描述

在這裏插入圖片描述


二、相關科研機構與算法框架

2.1 復旦大學 Knowledge Works

http://kw.fudan.edu.cn/

開源庫、開源工具、創業項目(數眼科技)

2.1.1 開源庫:FudanDNN 基於深度學習的中文自然語言處理工具。

復旦深度網絡中文自然語言處理工具FudanDNN-NLP4.0(在3.0的基礎上新增上下文相關問答。分爲兩種情況:第一種情況處理類似上一句問“今天北京天氣如何?”,然後追問“上海呢?”的情況;另一種情況是根據對話主題展開、轉換和遞進給出合適的回答;多輪對話。處理類似訂購機票的場景。不同場景可以根據對話進展自由切換,並且期間可插入其他問答;海量自定義問答對的高效檢索。檢索匹配時考慮同義詞替換,可根據發音相似性糾正可能的錯誤,並且支持一次提問包括多個問題的情況;可爲每一位用戶定義各自的上下文信息;圖形客戶端用於系統演示和調試,支持本地或服務器快速部署;問答過程中檢測禁用詞功能)
C++所寫,專門用於商業環境
github:https://github.com/FudanDNN/FudanDNN
blog:http://homepage.fudan.edu.cn/zhengxq/deeplearning/

2.1.2 CN-DBpedia接口——解釋型

提供全套API,並且免費開放使用。如需大規模調用請聯繫[email protected]索取APIKEY。

  • (1) api/cndbpedia/ment2ent

輸入實體指稱項名稱(mention name),返回對應實體(entity)的列表,json格式。

{"status": "ok", "ret": ["紅樓夢(中國古典四大名著之一)", "紅樓夢(2010年李少紅執導的古裝情感劇)", "紅樓夢(1987年陳曉旭、歐陽奮強主演央視版電視劇)"}
  • 1
  • (2) api/cndbpedia/avpair

輸入實體名,返回實體全部的三元組知識

{"status": "ok", "ret": [["中文名", "復旦大學"], ["英文名稱", "Fudan University"], ["簡稱", "復旦·FUDAN"], ["創辦時間", "1905年09月14日"], ["類別", "公立大學"], ["學校類型", "綜合"]}
  • 1
  • (3) api/cndbpedia/value

給定實體名和屬性名,返回屬性值

{"status": "ok", "ret": ["Fudan University"]}
  • 1

2.1.3 Probaseplus API接口

  • pbapi/getconcepts

輸入一個英文或中文的實體或概念名,返回其概念列表,返回格式爲json格式。

查詢 航空母艦 的第1-50個概念(第一頁)
http://knowledgeworks.cn:20314/probaseplus/pbapi/getconcepts?kw=航空母艦&start=0 
返回值:{"numcon": 73, "concept": [["船", 15], ...]}
表示航空母艦在CN-Probase中有73個概念,最具有代表性的概念是 船。
  • 1
  • 2
  • 3
  • 4

點評:該接口專用於多義詞

  • pbapi/getentities

輸入一個英文或中文的概念名,返回其包含的實體列表,返回格式爲json格式。

查詢 水果 的第1-50個實體(第一頁)
http://knowledgeworks.cn:20314/probaseplus/pbapi/getentities?kw=水果&start=0 
返回值:{"entity": [["蘋果", 2100], ["香蕉", 1321], ...], "nument": 1060}
表示水果在CN-Probase中有1060個實體,如 蘋果,香蕉 等。
  • 1
  • 2
  • 3
  • 4

點評:該接口專門用於尋找一個實體詞的下屬詞

2.1.4 CN-Probase接口——概念型

中文概念圖譜和概念分類體系

  • api/mention2entity

    {“status”: “ok”, “ret”: [“劉德華(中國香港男演員、歌手、詞作人)”, “劉福榮(劉德華別名)”, “劉德華(清華大學教授)”}

跟CN-DBpedia中的ment2ent類似,返回實體詞解釋。

  • api/getConcept

輸入實體,返回實體對應概念列表,json格式。

http://shuyantech.com/api/cnprobase/concept?q=劉德華
{"status": "ok", "ret": [["人物", 1299103], ["演員", 59658], ["娛樂人物", 25299], ["歌手", 15884], ["電影人", 88], ["填詞人", 64]], "count": 6, "pagesize": 50}
  • 1
  • 2

count:概念數量;pagesize:每次請求最多返回的概念數量
點評:返回了實體詞的屬性,跟CN-DBpedia中的avpair,有點類似

  • api/getEntity

輸入概念,返回概念對應實體列表,json格式。默認返回前50個。

{"status": "ok", "ret": [["喬振宇(中國內地男演員)", 321795144], ["霍建華(中國臺灣男演員)", 104187122], ["楊洋(中國內地男演員)", 87598713]}
  • 1

count:實體數量;pagesize:每次請求最多返回的實體數量

2.1.5 Shorttext Parsing API,短文本依存分析接口

輸入英文字符串,返回短文本解析的json
目前比較支持英文

2.1.6 Entity Understanding API接口

輸入中文文本,輸出分詞後的文本,以及識別的實體,json格式。

http://shuyantech.com/api/entitylinking/cutsegment?q=打球的李娜和唱歌的李娜不是同一個人
{"cuts": ["打球", "的", "李娜", "和", "唱歌", "的", "李娜", "不是", "同一個", "人"], "entities": [[[3, 5], "李娜(中國女子網球名將)"], [[9, 11], "李娜(流行歌手、佛門女弟子)"]]}
  • 1
  • 2

輸入一段話,輸出話中的實體詞 + 實體詞的位置信息

2.1.7 數眼科技

爬蟲模塊(分佈式、企業級的爬蟲任務)
知識圖譜與概念圖譜,基於知識工場
中文QA(輸入一段話然後返回內容)、[實體鏈接][4]
未來開放:企業級圖數據庫解決方案(還沒開發完全)

2.1.8 額外

金融新聞Bots,金融類監控,根據關鍵詞篩選,新聞、網站、軟文;理財產品問答系統
拼音轉漢字服務


2.2 思知(OwnThink)

開放項目:問答機器人、知識庫
跟 復旦的Knowledge Works有點相似,估計沒那個全面,開源的聊天機器人也弱爆了。。
獲取歧義關係(mention -> entity)

https://api.ownthink.com/ambiguous?mention=蘋果
{
    "message": "success", 
    "data": [
        {
            "薔薇科蘋果屬果實": [
                "蘋果(薔薇科蘋果屬果實)", 
                10929205
            ]
        }, 
        {
            "韓國2008年康理貫執導電影": [
                "蘋果(韓國2008年康理貫執導電影)", 
                7589732
            ]
        }
}
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17

獲取全部知識(entity -> knowledge)
更詳細的信息
https://api.ownthink.com/kg?entity=蘋果(薔薇科蘋果屬果實)
{
“message”: “success”,
“data”: {
“item”: “蘋果(2007年李玉執導電影)”,
“desc”: “《蘋果》是由李玉執導,范冰冰、佟大爲、梁家輝、金燕玲領銜主演的黑色幽默劇情電影。”,
“eav”: [
{
“entity”: “蘋果(2007年李玉執導電影)”,
“value”: “蘋果”,
“attribute”: “中文名”
關聯圖譜

https://api.ownthink.com/assmap?entity=蘋果
關聯圖譜暫時不對外直接開放(由於某種原因將於2018年8月開放)
  • 1
  • 2

2.3 Zhishi.me

王昊奮,Zhishi.me 通過從開放的百科數據中抽取結構化數據,首次嘗試構建中文通用知識圖譜。目前,已融合了三大中文百科,百度百科,互動百科以及維基百科中的數據。


2.4 交大的Acenap

官方主頁,http://acemap.sjtu.edu.cn/
主要做學術論文、人羣的知識圖譜

這裏寫圖片描述

  • 公開了多款算法(http://acemap.sjtu.edu.cn/acenap),有不同的軟件版本,python/matlab
  • 公開了多個可視化的方案與算法,http://acemap.sjtu.edu.cn/acenap/algorithms
  • 提到了幾個公開的數據源:社交媒體數據源 + 人人網爬取的人物關係數據源
    • 社交媒體數據源:
      • MovieLens This dataset is collected from the MovieLens dataset
        available at https://grouplens.org/datasets/movielens/. In the
        original dataset, the edge weights between users and items, namely
        the users’ ratings on items are decimal ratings in (0,5]. In our
        modified dataset, we map the decimal ratings to interger ratings in
        range [1,10].
      • AudioSrobbler This dataset is collected from the AudioSrobbler
        dataset available at
        http://www-etud.iro.umontreal.ca/~bergstrj/audioscrobbler_data.html.
        In the original dataset we are provided with users’ play counts for
        each music artist they have listened to. In our modified dataset, we
        mapped play counts to bounded edge weights between users and items
        i.e. users’ ratings as integers in [1,5].
      • BookCrossing This dataset is collected from the BookCrossing dataset
        available at http://www2.informatik.uni-freiburg.de/~cziegler/BX/. In
        the original dataset, we are provided with the users’ implicit and
        explicit ratings on books. In our modified dataset, we use integers
        in [1,10] to present the explicit user ratings and exculde ratings of
        0, which denote implicit ratings.

2.5 清華大學的openKE

由 THUNLP 基於 TensorFlow 工具包開發

該框架有如下特徵:

  • 擁有配置多種訓練環境和經典模型的簡易接口;
  • 對高性能 GPU 訓練進行加速和內存優化;
  • 高效輕量級的 C++實現,用於快速部署和多線程加速;
  • 現有大規模知識圖譜的預訓練嵌入,可用於多種相關任務;
  • 長期維護以修復 bug,滿足新需求。

TransE 、TransH、TransR、TransD、RESCAL、DistMult、HolE、ComplEx等算法的統一接口的高效實現;
面向WikiData和Freebase兩大通用KG全量數據的預訓練好的知識表示模型下載,不需要大家再費心重複訓練


2.6 自然語言處理工具包HanLP

HanLP是由一系列模型與算法組成的NLP工具包,目標是普及自然語言處理在生產環境中的應用。HanLP具備功能完善、性能高效、架構清晰、語料時新、可自定義的特點。

有py和java版本的,分別是:
pyhanlp: Python interfaces for HanLP
HanLP: Han Language Processing

從分詞、詞性標註、命名實體識別、關鍵詞提取、短語提取、文本推薦(語義推薦、拼音推薦、字詞推薦)、依存句法分析等功能,很全面。

2.7 scikit-kge: MIT知識圖譜embedding工具包

地址:https://github.com/mnick/scikit-kge
此工具包是有麻省理工大學( MIT )開發的python庫,可用不同方法訓練得到知識圖譜的分佈式表示結果,包含的知識圖譜表示學習方法有:
Holographic Embeddings (HolE)
RESCAL
TransE
TransR
ER-MLP

2.8 RDFox: 牛津大學的知識庫推理工具(推薦)

OpenKG蒐集和整理知識圖譜相關的技術工具,並將組織開展技術評測。

RDFox是一個高度可擴展的內存RDF三元組存儲,支持共享內存並行OWL 2 RL推理。 它是用C ++編寫的跨平臺軟件,帶有一個Java包裝器,允許與任何基於Java的解決方案(包括OWL API)輕鬆集成。


2.9 中國知網

同時,知網內的NLP結構也非常複雜,參考:http://www.keenage.com/zhiwang/c_zhiwang.html
知網描述了下列各種關係:

(a) 上下位關係 (由概念的主要特徵體現,請參看《知網管理工具》)

(b) 同義關係(可通過《同義、反義以及對義組的形成》獲得)

© 反義關係(可通過《同義、反義以及對義組的形成》獲得)

(d) 對義關係(可通過《同義、反義以及對義組的形成》獲得)

(e) 部件-整體關係(由在整體前標註 % 體現,如"心","CPU"等)

(f) 屬性-宿主關係(由在宿主前標註 & 體現,如"顏色","速度"等)

(g) 材料-成品關係(由在成品前標註 ? 體現,如"布","麪粉"等)

(h) 施事/經驗者/關係主體-事件關係(由在事件前標註 * 體現,如"醫生","僱主"等)

(i) 受事/內容/領屬物等-事件關係(由在事件前標註 $ 體現,如"患者","僱員"等)

(j) 工具-事件關係(由在事件前標註 * 體現,如"手錶","計算機"等)

(k) 場所-事件關係(由在事件前標註 @ 體現,如"銀行","醫院"等)

(l) 時間-事件關係(由在事件前標註 @ 體現,如"假日","孕期"等)

(m) 值-屬性關係(直接標註無須藉助標識符,如"藍","慢"等)

(n) 實體-值關係(直接標註無須藉助標識符,如"矮子","傻瓜"等)

(o) 事件-角色關係(由加角色名體現,如"購物","盜墓"等)

§ 相關關係(由在相關概念前標註 # 體現,如"穀物","煤田"等)

同時還有API:介紹知網知識庫的 API 參數與調用過程,當日調用接口的次數不得超過5000次
詞語相似度檢測/中文分析/英文分析/詞語相關性檢測
知網的api是在一個語知的平臺:http://yuzhinlp.com/chnParse.html

這裏寫圖片描述

知網內容期刊查詢的時候,也支持知識圖譜:

這裏寫圖片描述

這裏寫圖片描述

這裏寫圖片描述

這裏寫圖片描述

延伸:語知科技的接口非常豐富!

  • 有關係抽取接口:判案要素抽取、金融事件抽取、公司以及機構名抽取(在更新)
  • 文本語義解析接口、詞語相關、句子相關性、篇章相關性;
  • 基礎接口:詞語拼音、詞性判定、自動分詞、詞性標註、英文釋義(機器翻譯?)

每天有5000次免費調用額度
這裏寫圖片描述

這裏寫圖片描述

語知科技在語義分析方面優勢明顯,它可以處理的文本可以是超句的段落或篇章,並且系統的分析結果可揭示五種類型的內容:詞語之間的句法關係,詞語之間的邏輯語義關係,詞語之間的深層邏輯語義關係,通過邏輯語義角色轉換得到的深層理解,以及各個詞語的詞性、義項、拼音及其對應的英語譯文。

可參考:基於HowNet的NLP技術,語知科技打造新型語言理解技術服務平臺


2.10 浙江大學:創新設計產品庫

url:http://120.55.82.39:8080/index.html

這裏寫圖片描述

這裏寫圖片描述

這裏寫圖片描述

這裏寫圖片描述

2.11 中草藥知識服務系統

http://zcy.ckcest.cn/tcm/

好厲害,有知識圖譜,有KGQA問答系統,還有主題建模,各種專業分詞工具。
還有以圖搜圖功能,尼瑪,逆天!!

這裏寫圖片描述

這裏寫圖片描述

這裏寫圖片描述

這裏寫圖片描述

這裏寫圖片描述


2.12 中國工程科技知識中心

http://www.ckcest.cn/portal/hotspotdetail18
依據時間,關鍵詞等信息對內容進行展示
這裏寫圖片描述

2.13 NLPIR

http://ictclas.nlpir.org/nlpir/
基於詞語的多度傳播,簡單的詞關聯邏輯。

這裏寫圖片描述

這裏寫圖片描述

2.14 開放域中文知識圖譜《大詞林》

http://www.bigcilin.com/hypernym/?q=女僕咖啡廳

這裏寫圖片描述

2.15 北航 - 中文知識圖譜

http://www.actkg.com/linking/

在這裏插入圖片描述

在這裏插入圖片描述

在這裏插入圖片描述

在這裏插入圖片描述

在這裏插入圖片描述


延伸一:一文揭祕!自底向上構建知識圖譜全過程

知識圖譜的構建技術主要有自頂向下和自底向上兩種。其中自頂向下構建是指藉助百科類網站等結構化數據源,從高質量數
據中提取本體和模式信息,加入到知識庫裏。而自底向上構建,則是藉助一定的技術手段,從公開採集的數據中提取出資源模式,選擇其中置信度較高的信息,加入到知識庫中。
本篇文章很基礎的解釋了知識圖譜的底層結構,很贊!

這裏寫圖片描述

 

轉自https://blog.csdn.net/sinat_26917383/article/details/66473253#toc_8

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章