實現自動建模、存儲下降最高達50%，Kyligence 最新產品解讀

原創

2020-06-16 12:37

隨着數字化時代的不斷深入，數據量持續呈現出爆發式增長勢頭。如何存儲和處理海量數據已經成爲一個亟需解決的問題，底層數據庫領域正在經歷新一輪的變革。作爲這個領域爲數不多來自中國企業，Kyligence 從最早的一款 Hadoop 上的 OLAP 引擎產品，經過三年時間的快速迭代，成爲新一代的智能數倉產品。新產品利用AI技術大大簡化產品的使用，加速大數據洞察，賦能平民數據科學家。

這款倡導“增強分析”的新產品對於企業的價值在哪裏？

有哪些功能創新？性能與上一代產品相比又何突破？

最新版本在企業的實戰效果如何？

增強引擎

此次發佈的產品最大變革就是“增強引擎”。新一代 Kyligence Enterprise 提供專家模式和智能模式兩種工作方式。在智能模式下，增強引擎能夠自動學習用戶的查詢SQL，從而不斷調整預計算範圍，經過一段時間的迭代學習，實現預計算和查詢的精準匹配，提升計算和存儲資源的利用率。有了這個功能以後，企業可減少數據工程師的投入，提升運維成本；同時，也可提高企業IT部門對業務需求的效應效率。

這裏插播一下，增強分析Gartner今年提出的十大數據趨勢之一，是一種新興數據分析方式，藉助了機器學習跟AI，讓用戶可以更低門檻去將這個數據分析呈現出來。（未來：Augmented Analytics）以某保險公司爲例，相比傳統Cube構建方式，通過機器學習方法與增強引擎，刪除低效存儲模型，最終節省70%的存儲資源，構建時間縮短60%。

自適應的 Schema

不管是Apache Kylin 還是上一代產品，Kyligence Enterprise 的整個Schema 都比較固定，也就是說它沒有辦法讓你很好地適應它的變化。新一代產品，新增了自適應的Schema，它完全是基於SQL 動態調整、自動建模，不再受固定Schema的限制。在過去，一個較小業務變更就意味着不得不重新設計，發佈和構建整個OLAP模型，給開發和運維工作帶來巨大挑戰。新一代的產品可以更靈活的響應業務需求變化。

例如當分析場景需要的維度，度量發生變化時，建模人員可以在現有模型上快速進行變更操作和一鍵發佈，或者由增強引擎自動判斷哪些模型需要更新。更爲難得的是，系統只需要爲增量的指標付出構建成本，而無須重新構建全部數據。這個功能的優化將顯著減少了模型更新的人力和時間成本，提高對業務響應的效率。

Kyligence Storage Gen 2

Kyligence 從一開始就沒有使用 HBase，而是基於分佈式的雲原生列式存儲。在新版本中，Kyligence 加強了在 Storage 上的投入。最新產品利用CPU的向量化，以及對一些重複數據的刪除，更重要的是優化了相關列式存儲壓縮算法，使得Kyligence Enterprise v 4.0 存儲相比上一代產品可實現 10% 到 50% 的下降，具體下降幅度需要視企業應用場景而定。也正是得益於這樣的存儲優化，整個數據分析的加載和索引時間也會大大降低，效率得到成倍甚至幾倍的提升。

全棧 Spark

在 4.0 版本中，KyligenceEnterprise 正式進入全面 Spark 階段——不管是構建引擎還是查詢引擎，所有的管理全都基於Spark 運作。這也意味着 Kyligence Enterprise 沒有對平臺的依賴，可以跑在Hadoop 上，也可以跑在雲上，或者是其他的一些平臺上，企業客戶在這方面有更多的可選擇。全棧Spark架構不僅給構建和查詢帶來更好的性能，提升服務的時間響應的及時性，也能爲企業客戶減少採購成本和降低運維成本。

性能進一步提升

性能測試1：

5 億條數據的背景下，v 4.0與Spark SQL v 2.4 的TPC-H 測試結果對比。可以看到，在同樣的硬件規模上，查詢性能遠遠優於Spark SQL 2.4, 90% 查詢可以在10秒以內返回結果，平均查詢性能約爲Spark SQL 2.4的24倍。（補充說明：Kyligence是基於預計算的原理來進行數據查詢）

性能測試2：

在數據量線性增長時，v4.0 與Spark SQL v2.4的查詢延遲測試對比。在同樣的硬件規模上，我們基於TPC-H 在不同的SQL 上做了一個對比，從TPC-H 50 到1000，可以看到，Spark SQL 在TPC-H 1000 的時候崩掉了，但v4.0還能很好地服務，而且保持良好的性能。（就Kyligence vs Spark SQL的性能測試，我們將在下週發佈詳細的測試內容，敬請關注。）

Beta用戶測試

在某保險公司的應用中，基於上一代產品技術我們做了一個對比：以前兩週才能設計一個模型；今天只需要30分鐘就能基於用戶的歷史記錄，把所有模型推薦出來，而且推薦成功率可以達到95%，數據加載時間降低60%， 整個數據建模的效率得到了極大地提升。

下面這張圖是一個來自美國的一家大型金融機構的測試報告：

從中國到美國，在超大體量數據的應用上，Kyligence Enterprise v4.0已經有了非常多的嘗試。

聯繫我們

網站：https://kyligence.io/

郵件：[email protected]

電話： +86 21-61060928

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

實現自動建模、存儲下降最高達50%，Kyligence 最新產品解讀

985 碩士程序員，空窗 4 個月沒有 Offer！

營銷系統黑名單優化：位圖的應用解析

一文搞懂 Spring 循環依賴

我真的從測試轉成了開發......

nginx添加相應配置，通過瀏覽器訪問或curl時返回客戶端對應公網IP

賽博鬥地主——使用大語言模型扮演Agent智能體玩牌類遊戲。

python內置函數——sorted

[oeasy]python020在遊戲中體驗數值自由_勇闖地下城_終端文字遊戲

爲何我建議你學會抄代碼

抖音面試：說說延遲任務的調度算法？

Kyligence 智能數據服務與管理相關研究

齊聚魔都｜Kylin x MLSQL Meetup 報名開啓

更快更穩：Apache Kylin 4.0.0-beta 正式發佈！

複雜分析場景，SQL or MDX ？

語義層：2020 年不可不知的 BI 趨勢

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結