快準狠的數據挖掘分析，用了這些方法！復旦 & Zilliz 夢幻聯動

原創

2021-09-06 21:31

「交互式數據探索系統中，『快』與『準』的需求如何做好平衡？」

「小白用戶想做數據挖掘，分析方法不會選，怎麼辦？」

「數據檢索需要遍歷每一個數據，如何提升檢索性能？」

上週五，Z 寶參加了一場乾貨滿滿的 Tech Talk，復旦大學計算機科學技術學院的荊一楠副教授和張凱副教授來到 Zilliz，與 Z 星的工程師們分享數據庫領域前沿的研究方向。一起來看一看我們的思想火花吧：

從“語言級”、“工具級”到“智能級”，AI 技術讓數據分析更“聰明”

荊一楠從哈勃望遠鏡談起，引入數據探索的概念，介紹了團隊在數據自動分析、數據可視化方向做的一系列工作，分享了團隊研發的智能大數據探索系統—— DataHubble。

“讓用戶輕鬆地做選擇”是荊一楠團隊研發的初心。爲了讓系統實現更智能的分析方法推薦，DataHubble 首創了一種基於協同過濾和知識圖譜的分析模型推薦方法（ModelAdvisor），與現有的 AutoML 方法相比，ModelAdvisor 引入了專家知識，大大增強了分析方法推薦的準確度，同步提升推薦可解釋性。

除了分析方法推薦，DataHubble 在用戶意圖理解、精細化樣本、敏捷分析、AQP on Text 等方面也取得了關鍵成果：

智能數據分析，融合了人工智能能力，可實現增強式的智能數據分析；自然語言交互，提升了大數據分析系統的易用性和分析效率；可視化的推薦，從根本上減少了人和數據之間的 gap。

兩種方法左右橫跳？BinDex 用一種方法把數據掃描的性能提升了 1.6 倍

張凱從現有的數據檢索痛點入手，分享了 BinDex 數據掃描方法。

現有的數據檢索分爲索引掃描（Index scan） 和順序掃描（Sequential scan） 兩種方式，這兩種方式各有優缺點：索引掃描通常採用 B+ 樹等索引結構進行掃描，僅會訪問滿足謂詞約束的數據，但是掃描過程會產生大量的隨機訪問，影響吞吐率；順序掃描依次訪問存儲介質，掃描吞吐量高，但需要遍歷所有數據。

爲了找到較優的方法，用戶在數據檢索前要預判成本。然而，成本估算不一定準確，用戶有時無法確定要使用哪種掃描方式。針對這個問題，張凱團隊嘗試用新的方法加速掃描過程。張凱團隊研發的 BinDex 方法吸取了索引掃描和順序掃描兩者的優點，只需要觸碰到滿足條件的數據，在不同選擇率（selectivity）下都能達到比較好的性能。

如此強大的 BinDex 是如何實現的？張凱進一步介紹了 BinDex 的架構原理：BinDex 使用兩層索引，第一層 Filter Layer 實現近似查找，第二層 Refine Layer 針對性地修改少量錯誤數據。當用戶發出一個查詢請求，系統會先找到和所要結果最相近的查找，隨後更正並輸出正確答案。

有了 BinDex 掃描，用戶無需按傳統的方法“預判-選擇”，而是可以直接上手掃描。經測試，掃描速度至少提升了 1.6 倍。

在未來，我們的科技樂園 Z 星會舉辦更多有趣、有用的技術沙龍。

讓我們一起對新技術永葆好奇，創造革新的數據科學平臺！

Zilliz 以重新定義數據科學爲願景，致力於打造一家全球領先的開源技術創新公司，並通過開源和雲原生解決方案爲企業解鎖非結構化數據的隱藏價值。

Zilliz 構建了 Milvus 向量數據庫，以加快下一代數據平臺的發展。Milvus 是 LF AI & Data 基金會的畢業項目，能夠管理大量非結構化數據集，在新藥發現、推薦引擎、聊天機器人等方面具有廣泛的應用。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

快準狠的數據挖掘分析，用了這些方法！復旦 & Zilliz 夢幻聯動

從“語言級”、“工具級”到“智能級”，AI 技術讓數據分析更“聰明”

兩種方法左右橫跳？BinDex 用一種方法把數據掃描的性能提升了 1.6 倍

Nginx R31 doc 官方文檔-01-nginx 如何安裝

Qt/C++音視頻開發74-合併標籤圖形/生成yolo運算結果圖形/文字和圖形合併成一個/水印濾鏡

挑戰程序設計競賽 2.2章習題 POJ - 3617 Best Cow Line 貪心

字節面試：MySQL什麼時候鎖表？如何防止鎖表？

.NET8連接SQL SERVER 2008 R2 報：證書鏈是由不受信任的頒發機構頒發的

golang開發環境搭建(win10)

python計算機視覺學習筆記——PIL庫的用法

Shell/Python中的用戶名獲取

Linux中的tty和pts

網絡爬蟲的祕密：如何高效地抓取JD.com視頻鏈接

系統國際化之多語言解決方案| 京東物流技術團隊

CaffeineCache Api介紹以及與Guava Cache性能對比| 京東物流技術團隊

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結