快準狠的數據挖掘分析,用了這些方法!復旦 & Zilliz 夢幻聯動

「交互式數據探索系統中,『快』與『準』的需求如何做好平衡?」

「小白用戶想做數據挖掘,分析方法不會選,怎麼辦?」

「數據檢索需要遍歷每一個數據,如何提升檢索性能?」

上週五,Z 寶參加了一場乾貨滿滿的 Tech Talk,復旦大學計算機科學技術學院的荊一楠副教授和張凱副教授來到 Zilliz,與 Z 星的工程師們分享數據庫領域前沿的研究方向。一起來看一看我們的思想火花吧:

從“語言級”、“工具級”到“智能級”,AI 技術讓數據分析更“聰明”

荊一楠從哈勃望遠鏡談起,引入數據探索的概念,介紹了團隊在數據自動分析、數據可視化方向做的一系列工作,分享了團隊研發的智能大數據探索系統—— DataHubble。

荊一楠指出,交互式數據探索系統需要做到“快狠準”

“讓用戶輕鬆地做選擇”是荊一楠團隊研發的初心。爲了讓系統實現更智能的分析方法推薦,DataHubble 首創了一種基於協同過濾和知識圖譜的分析模型推薦方法(ModelAdvisor),與現有的 AutoML 方法相比,ModelAdvisor 引入了專家知識,大大增強了分析方法推薦的準確度,同步提升推薦可解釋性。

DataHubble 架構圖

除了分析方法推薦,DataHubble 在用戶意圖理解、精細化樣本、敏捷分析、AQP on Text 等方面也取得了關鍵成果:

智能數據分析,融合了人工智能能力,可實現增強式的智能數據分析;自然語言交互,提升了大數據分析系統的易用性和分析效率;可視化的推薦,從根本上減少了人和數據之間的 gap。

兩種方法左右橫跳?BinDex 用一種方法把數據掃描的性能提升了 1.6 倍

張凱從現有的數據檢索痛點入手,分享了 BinDex 數據掃描方法。

張凱分享 BinDex 原理

現有的數據檢索分爲索引掃描(Index scan)順序掃描(Sequential scan) 兩種方式,這兩種方式各有優缺點:索引掃描通常採用 B+ 樹等索引結構進行掃描,僅會訪問滿足謂詞約束的數據,但是掃描過程會產生大量的隨機訪問,影響吞吐率;順序掃描依次訪問存儲介質,掃描吞吐量高,但需要遍歷所有數據。

爲了找到較優的方法,用戶在數據檢索前要預判成本。然而,成本估算不一定準確,用戶有時無法確定要使用哪種掃描方式。針對這個問題,張凱團隊嘗試用新的方法加速掃描過程。張凱團隊研發的 BinDex 方法吸取了索引掃描和順序掃描兩者的優點,只需要觸碰到滿足條件的數據,在不同選擇率(selectivity) 下都能達到比較好的性能。

如此強大的 BinDex 是如何實現的?張凱進一步介紹了 BinDex 的架構原理:BinDex 使用兩層索引,第一層 Filter Layer 實現近似查找,第二層 Refine Layer 針對性地修改少量錯誤數據。當用戶發出一個查詢請求,系統會先找到和所要結果最相近的查找,隨後更正並輸出正確答案。

有了 BinDex 掃描,用戶無需按傳統的方法“預判-選擇”,而是可以直接上手掃描。經測試,掃描速度至少提升了 1.6 倍。

image.png

在未來,我們的科技樂園 Z 星會舉辦更多有趣、有用的技術沙龍。

讓我們一起對新技術永葆好奇,創造革新的數據科學平臺!


Zilliz 以重新定義數據科學爲願景,致力於打造一家全球領先的開源技術創新公司,並通過開源和雲原生解決方案爲企業解鎖非結構化數據的隱藏價值。

Zilliz 構建了 Milvus 向量數據庫,以加快下一代數據平臺的發展。Milvus 是 LF AI & Data 基金會的畢業項目,能夠管理大量非結構化數據集,在新藥發現、推薦引擎、聊天機器人等方面具有廣泛的應用。


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章