實現自動建模、存儲下降最高達50%,Kyligence 最新產品解讀

隨着數字化時代的不斷深入,數據量持續呈現出爆發式增長勢頭。如何存儲和處理海量數據已經成爲一個亟需解決的問題,底層數據庫領域正在經歷新一輪的變革。 作爲這個領域爲數不多來自中國企業,Kyligence 從最早的一款 Hadoop 上的 OLAP 引擎產品,經過三年時間的快速迭代,成爲新一代的智能數倉產品。新產品利用AI技術大大簡化產品的使用,加速大數據洞察,賦能平民數據科學家。

這款倡導“增強分析”的新產品對於企業的價值在哪裏?

有哪些功能創新?性能與上一代產品相比又何突破?

最新版本在企業的實戰效果如何?

增強引擎

此次發佈的產品最大變革就是“增強引擎”。 新一代 Kyligence Enterprise 提供專家模式和智能模式兩種工作方式。在智能模式下,增強引擎能夠自動學習用戶的查詢SQL,從而不斷調整預計算範圍,經過一段時間的迭代學習,實現預計算和查詢的精準匹配,提升計算和存儲資源的利用率。有了這個功能以後,企業可減少數據工程師的投入,提升運維成本;同時,也可提高企業IT部門對業務需求的效應效率。

這裏插播一下,增強分析Gartner今年提出的十大數據趨勢之一,是一種新興數據分析方式,藉助了機器學習跟AI,讓用戶可以更低門檻去將這個數據分析呈現出來。(未來:Augmented Analytics)  以某保險公司爲例,相比傳統Cube構建方式,通過機器學習方法與增強引擎,刪除低效存儲模型,最終節省70%的存儲資源,構建時間縮短60%

自適應的 Schema

不管是Apache Kylin 還是上一代產品,Kyligence Enterprise 的整個Schema 都比較固定,也就是說它沒有辦法讓你很好地適應它的變化。新一代產品,新增了自適應的Schema,它完全是基於SQL 動態調整、自動建模,不再受固定Schema的限制。在過去,一個較小業務變更就意味着不得不重新設計,發佈和構建整個OLAP模型,給開發和運維工作帶來巨大挑戰。新一代的產品可以更靈活的響應業務需求變化。

例如當分析場景需要的維度,度量發生變化時,建模人員可以在現有模型上快速進行變更操作和一鍵發佈,或者由增強引擎自動判斷哪些模型需要更新。更爲難得的是,系統只需要爲增量的指標付出構建成本,而無須重新構建全部數據。這個功能的優化將顯著減少了模型更新的人力和時間成本,提高對業務響應的效率。

Kyligence Storage Gen 2

Kyligence 從一開始就沒有使用 HBase,而是基於分佈式的雲原生列式存儲。在新版本中,Kyligence 加強了在 Storage 上的投入。最新產品利用CPU的向量化,以及對一些重複數據的刪除,更重要的是優化了相關列式存儲壓縮算法,使得Kyligence Enterprise v 4.0 存儲相比上一代產品可實現 10% 到 50% 的下降,具體下降幅度需要視企業應用場景而定。也正是得益於這樣的存儲優化,整個數據分析的加載和索引時間也會大大降低,效率得到成倍甚至幾倍的提升。

全棧 Spark

在 4.0 版本中,KyligenceEnterprise 正式進入全面 Spark 階段——不管是構建引擎還是查詢引擎,所有的管理全都基於Spark 運作。 這也意味着 Kyligence Enterprise 沒有對平臺的依賴,可以跑在Hadoop 上,也可以跑在雲上,或者是其他的一些平臺上,企業客戶在這方面有更多的可選擇。全棧Spark架構不僅給構建和查詢帶來更好的性能,提升服務的時間響應的及時性,也能爲企業客戶減少採購成本和降低運維成本。

性能進一步提升

性能測試1:

5 億條數據的背景下,v 4.0與Spark SQL v 2.4 的TPC-H 測試結果對比。可以看到,在同樣的硬件規模上,查詢性能遠遠優於Spark SQL 2.4, 90% 查詢可以在10秒以內返回結果平均查詢性能約爲Spark SQL 2.4的24倍。(補充說明:Kyligence是基於預計算的原理來進行數據查詢)

性能測試2:

在數據量線性增長時,v4.0 與Spark SQL v2.4的查詢延遲測試對比。在同樣的硬件規模上,我們基於TPC-H 在不同的SQL 上做了一個對比,從TPC-H 50 到1000,可以看到,Spark SQL 在TPC-H 1000 的時候崩掉了,但v4.0還能很好地服務,而且保持良好的性能。(就Kyligence vs Spark SQL的性能測試,我們將在下週發佈詳細的測試內容,敬請關注。

Beta用戶測試

在某保險公司的應用中,基於上一代產品技術我們做了一個對比:以前兩週才能設計一個模型;今天只需要30分鐘就能基於用戶的歷史記錄,把所有模型推薦出來,而且推薦成功率可以達到95%,數據加載時間降低60%, 整個數據建模的效率得到了極大地提升。

下面這張圖是一個來自美國的一家大型金融機構的測試報告:

從中國到美國,在超大體量數據的應用上,Kyligence Enterprise v4.0已經有了非常多的嘗試。


聯繫我們

網站:https://kyligence.io/

郵件:[email protected]

電話: +86 21-61060928

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章