互聯網和信息技術滲透到各行各業生產海量的數據,人們逐漸開始關注數據的內在關聯,這在知識圖譜、推薦引擎、金融風控、公共安全和智能運維等場景中尤其顯得重要。如何在海量的數據中發現有價值的關聯信息是一大挑戰,於是圖數據庫技術應運而生,專注於處理關聯數據,並在近幾年飛速發展。
百度自主研發的原生圖數據系統(BGraph),在百度的知識圖譜系統中應用和實踐多年,支撐數以億計的實體並支撐數以萬計的查詢QPS,用於知識問答、搜索推薦和知識推理等。
本主題主要和大家分享我們圖數據庫的設計和實踐經驗,包括原生的圖存儲和圖計算技術,針對圖的存儲和查詢的性能優化,分佈式集羣技術和高可用技術方案等。
內容大綱:
1、爲什麼需要圖數據庫
- 各行業的應用場景,需要分析數據關聯獲取商業價值
- SQL 數據庫 vs 圖數據庫
2、圖數據庫的技術挑戰
- 圖數據庫的技術挑戰:局部性差,規模大,分片難等
- 業界的圖數據庫以及特點
3、圖數據庫的系統架構
- 圖數據庫的核心目標
- 原生的圖存儲和計算
- 支持全文檢索的必要性
- 高可用的分佈式集羣架構
4、應用於實踐經驗
- 在百度知識圖譜的應用
- 批量導入 vs 流式寫入的權衡
- 分而治之
- 性能!性能!
- 訪問控制和系統防禦
- 思考與展望
聽衆受益
1、瞭解圖數據庫的發展方向和技術挑戰
2、瞭解知識圖譜和企業風控等圖數據庫的需求
3、學習和了解分佈式系統的架構理念與設計
4、大規模分佈式系統的實踐經驗