【華爲雲技術分享】華爲雲多元計算+AI 打造企業級智能數據湖

欣頓.郝爾潑於《迫在眉睫的南方危機》中寫道“還沒有多少人能夠正確地認識到數據在自由這項事業中正在扮演的重要角色。它們正在創造奇蹟……”當時,欣頓.郝爾潑身處黑人白人不平等的奴隸制社會,他用數據的方式驗證南北經濟的差異去證明黑人的社會價值,從而加速結束奴隸制的存在。

如今,我們已然深知數據在生活生產中扮演着重要角色,那他的本質是什麼,如何利用好數據爲我們創造價值?認識數據,瞭解多元時代數據的豐富多態和其解決之道至關重要。

什麼是數據

我們注意到:在做數據分析的時候單用數字去描述是遠遠不夠的,比如過年爆發的疫情現狀如何。我單記錄“24”、“0”是不夠的,我需要完整的記錄【2月23日“24”個省確診病例“0”新增】,如果配上圖文、視頻等信息可以更全面瞭解疫情現狀。

image.png

我們這裏講的數據其實是涵蓋數據及信息兩者的統稱。數據也好,信息也罷都是客觀存在的,把這些客觀存在的數據、信息介於人們接受數據的方式不同,用不同的技術手段來存儲、管理計算等等,從而衍生出多模態數據。

對於多模態數據的計算處理,華爲雲有一套端到端的解決方案,名爲智能數據湖。

智能數據湖

實際上大家可能知道,數據湖這個概念其實已經出來有幾年了,傳統的數據湖更多指的是數據存儲和管理,把所有數據放在一起統一存儲。華爲雲智能數據湖從解決方案層面做了進一步延伸,如材料圖中所示,智能數據湖分爲三層:統一數據存儲層,多元計算層,數據運營層。

image.png

三大特點:

1、 存算分離

大家如果搭建過大數據集羣的話,可能會有比較深刻的體會,使用開源Hadoop系統做存算一體部署,基於服務器構建集羣往往會帶來存儲資源和計算資源利用不均的問題,如存儲上PB級數據,分析查詢可能只需要十幾個CPU;業務擴容時,因爲是按照服務器個數爲單元擴,實際上計算資源是綁定一起擴容的,這種情況對於規模越大,數據量增長越快,業務種類越多的企業,會更加顯著;從我們之前支撐過的大型互聯網APP企業的經驗來看,計算資源會存在40%~50%的浪費。

而存算分離則很好的解決了這個問題,通過計算和存儲解耦,利用雲架構彈性的優勢,存儲和計算單獨按需擴縮容,從而使資源利用率達到最大化。

2.1、多元計算

全棧支持鯤鵬,從方案圖中可以看到,包括一站式大數據平臺MRS服務,批流計算+交互式分析的多模計算DLI服務,以及增強的企業級數據倉庫服務。

DLI是一個serverless服務,它對於用戶來說就像一個黑盒,用戶不用關心服務內部的資源,以及軟件怎麼部署,只需要使用服務提供的對外接口直接進行業務實現,無須運維,使用起來非常方便。

MRS是一個集羣類型的服務,包含Hadoop,spark,hive等常見服務,可以理解爲大數據全家桶;MRS服務的形態則和DLI剛好相反,用戶感知硬件資源,需要先選擇資源類型,然後部署集羣。一般情況下客戶已有大數據平臺,做雲上遷移;或者客戶有自己的大數據團隊,需要登錄集羣修改配置做調優,可以選用MRS服務;

數據倉庫DWS服務,這個服務的內核基於華爲自研的GaussDB,同時我們在雲服務架構上也做了優化,包括分佈式彈性能力,可靠性能力,性能也達到業界領先水平。

2.2、+AI的助力

第一是數據與AI算法/模型協同,用來支持非結構化處理;在技術上我們是在大數據系統中內置了AI的輕量推理引擎,AI算法模型作爲算子,在大數據處理過程中直接調度使用,如圖像識別模型作爲一個UDF,在大數據處理過程中直接使用SQL調用。

另一個方向則是用AI來做數據引擎的自調優;通過收集業務運行時的系統各方面過程數據,採用AI建模預測,推薦更優配置,以及更優的數據組織策略,這就像大數據系統內置了一個小機器人,它不停的在對系統做維修優化,從而讓引擎使用起來具備更優越的性能

3、完整的一套數據運營工具平臺

這便是圖中最上層的DAYU服務,他圍繞數據處理過程提供了端到端一站式數據運營能力,包括從數據集成,規範設計,開發,質量管理,到形成數據資產,以及對外開放服務;DAYU給數據管理和分析工作者帶來了便利,通過全流程界面化操作,極大的降低了數據管理和分析的門檻,同時也提供API方式供夥伴集成,構建自己的數據系統。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章