宜信數據中臺全揭祕(一)數據中臺整體介紹|分享實錄

內容來源:宜信技術學院第11期技術沙龍|宜信數據中臺全揭祕(一)數據中臺整體介紹

主講人:宜信數據中臺解決方案架構師 裴國強
PPT下載:鏈接: https://pan.baidu.com/s/1eSkSdUo6FmYFmcE4xg0vjw 密碼: 99uh

一、數據中臺定位

1.1 ADX整體簡介-中臺定位


首先對中臺的服務範圍說明:

  • 企業級:針對是整個企業的所有業務部門,橫向貫穿整個業務線的數據,縱向貫穿整個數據生命週期,從最開始的數據採集(DB,日誌,消息,文件),入湖,標準化,開發(批量作業,流式作業)維度表,最後到數據服務和數據應用。

  • 複用:複用的範圍包括,能力的複用,邏輯的複用,數據資產的複用,算法的複用。

  • 能力:對平臺能力進行抽象,對於不同平臺的對能力的抽象,業務平臺(流程控制,管理,審批,權限「等級,繼承」,調度),數據平臺(批量,流式,UDF,UDAF,數據質量,血緣分析,數據地圖,調度,數據資產管理,權限,數據服務)。

分橫向和縱向兩個方面:

橫向劃分

  • 大數據基礎集羣:更貼近硬件的平臺,負責提供穩定及高可用的計算運行環境,及安全的數據存儲環境

  • HDFS-數據湖的基礎存儲,存放表每天的快照,和增量數據。

  • KUDU-最新快照,用於即席查詢,數據服務,流式數據快照。

  • ClickHouse-Clickhouse做DW和DM層的存儲。

  • 數據中臺 :對數據能力的抽象 ,數據的流式和批量加工,數據資產的發佈,數據統一落湖,質量管理檢測,脫敏加密,統一數據出口能力。

  • 業務前臺:對業務系統,業務線數據團隊,提供各種不同的數據能力。使其能在中臺上沉澱企業級數據資產。

縱向劃分

  • 數據管理委員會:對數據資產的質量認證,數據使用權限的授權,數據治理項目推動實施。

  • 數據運營團隊:客戶標籤,用戶畫像,產品畫像,智能推薦,精細化管理。

  • 數據安全團隊:數據脫敏加密,安全密鑰管控,數據風險的控制。

二、數據中臺價值

2.1 數據中臺價值

  • 快:

傳統數倉定製化報表,排期週期長,響應需求慢,重複開發工作比較多。T+1的數據失效也滿足不了現在互聯網業務場景下對數據實時處理能力的需求。對中臺平臺自主化開發,可以提升數據加工能力沉澱,以及實時數據處理能力。

  • 準:

數據獲取準確性,通過統一數據抽取平臺對數據實時抽取,同時完成標準化,入湖,脫敏發佈。通過元數據和血緣分析準確獲取數據地圖。通過模型管理和統一模型口徑。

  • 省:

節省人力成本,大大降低大數據處理的技術門檻,使用戶能夠快速上手。節省需求排期時間,使數據能更快的響應業務需求。節省硬件資源,通過對平臺資源的整合,規劃,節省硬件使用維護成本。

2.2 數據總線平臺DBus


DBus面向大數據項目開發和管理運維人員,致力於提供數據實時採集和分發解決方案。平臺採用高可用流式計算框架,提供海量數據實時傳輸,可靠多路消息訂閱分發,通過簡單靈活的配置,無侵入接入源端數據,對各個IT系統在業務流程中產生的數據進行彙集,並統一處理轉換成通過JSON描述的UMS格式,提供給不同下游客戶訂閱和消費。DBus可充當數倉平臺、大數據分析平臺、實時報表和實時營銷等業務的數據源。目前dbus支持的數據源包括 mysql,Orale db2,Mongo,日誌系統,文件系統等。

2.3 流式處理平臺Wormhole

Wormhole面向大數據項目開發和管理運維人員,致力於提供數據流式處理解決方案。平臺專注於簡化和統一開發管理流程,提供可視化的操作界面,基於配置和SQL的業務開發方式,屏蔽底層技術實現細節,極大降低了開發門檻,使得大數據流式處理項目的開發和管理變得更加輕量敏捷、可控可靠。

2.4 虛擬混算服務平臺Moonbox


Moonbox面向數據倉庫工程師/數據分析師/數據科學家等,致力於提供數據虛擬化解決方案。既可作爲數據應用底層數據查詢計算統一入口,也可作爲邏輯數據倉庫與現有數據倉庫互補。用戶只需通過統一SQL服務調用和Moonbox交互,即可透明屏蔽異構數據系統異構交互方式,輕鬆實現跨異構數據系統透明混算。

2.5 數據化可視應用平臺Davinci


Davinci面向業務人員/數據工程師/數據分析師/數據科學家,致力於提供一站式數據可視化解決方案。既可作爲公有云/私有云獨立部署使用,也可作爲可視化插件集成到三方系統。用戶只需在可視化UI上簡單配置即可服務多種數據可視化應用,並支持高級交互/行業分析/模式探索/社交智能等可視化功能。

三、數據中臺模塊架構

3.1 數據中臺模塊架構


宜信中臺整體底層採用wormhole+dbus+moonbox作爲數據採集,加工,處理的底層引擎,通過服務的形式形成底層接口層提供數據實時處理的基礎能力,在通過對接口層的整合,形成數據加工處理的子服務,使數據中臺的後臺服務完成調度,鑑權,認證,監控,告警。通過對不同組件層的能力整合完成了各項數據能力批量作業編排,調度,補數,手動重啓,流式數據邏輯加工(source,lookup,transformation,union) flow在stream內的物理執行順序,流式數據落湖,流式數據回溯。

3.2 功能目錄


菜單劃分
管理類(審批,庫表,團隊,規則,密鑰,監控,預警,元數據);
功能類(批量作業,流式作業,即席查詢,數據發佈);
數據應用類(血緣分析,數據地圖,數據模型,數據質量)。

四、解決核心問題概覽

4.1 批量作業處理


專注於作業編輯編排,是數據項目的IDE,具體執行提交到對應中間件工具上執行。
簡單一致的IDE體驗

  • 批量作業、流式作業拖拽式編排
  • 批量作業、流式作業SQL式開發
  • 全局唯一表名,屏蔽異構數據系統
  • 開發期可驗證SQL和數據正確性

4.2 流式作業處理


主要解決數據處理流程中錯綜複雜的依賴關係。

後面的沙龍我們將詳細的介紹宜信數據中臺的批量處理和流式處理功能請大家持續關注我們。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章