阿里數據中臺與OneData

企業發展初期,數據研發是緊貼業務發展而演變的,數據體系基於業務單元垂直建立,形成多個垂直化業務數據體系。

 

隨着企業發展,業務需要的數據不再是垂直化的,向數據研發提出了多數據類型的數據使用需求。

 

跨垂直單元的數據問題繁多:

 

1)數據標準不統一

在建立OneData之前,阿里數據有30000多個指標,其中,即使是同樣的命名,但定義口徑卻不一致。例如,僅uv這樣一個指標,就有十幾種定義。帶來的問題是:都是uv,我要用哪個?都是uv,爲什麼數據卻不一樣?

 

2)服務業務能力

由於數據模式是跟着垂直業務,導致一開始只支持了淘寶、天貓、1688等少數業務團隊。而更多有個性化需求的業務團隊卻無法提供更多支持。

 

3)計算存儲成本

由於沒有統一的規範標準管理,造成了重複計算等資源浪費。而數據表的層次、粒度不清晰,也使得重複存儲嚴重,僅淘系的數據表就超過了25000張,集團總數據的存儲量每年以2.5倍的速度在增長,可以預見的未來的將會帶來巨大的數據成本負擔,我們不得不去做一些改變。

 

4)研發成本

每個工程師都需要從頭到尾瞭解研發流程的每個細節,對同樣的“坑”每個人都會重新踩一遍,對研發人員的時間和精力成本造成浪費

 

阿里數據中臺戰略中的OneData統一數據標準和實時數據分析就解決了打通垂直化業務數據的需求。

 

OneData是阿里數據中臺的核心,OneData體系建立在集團數據公共層,從設計、開發、部署和使用上保障了數據口徑的規範和統一,實現數據資產全鏈路管理,提供標準數據輸出。

 

OneData數據公共層對原30000多個數據指標進行了口徑規範和統一,梳理縮減爲3000餘個。

 

 

OneData體系

 

 

OneData體系即建立企業統一的數據公共層,從設計、開發、部署和使用上保障了數據口徑的規範和統一,實現數據資產全鏈路管理,提供標準數據輸出。

 

以Kimball的維度建模爲核心理念基礎的模型方法論,同時對其進行了一定的升級和擴展,構建了阿里集團的數據架構體系——OneData

 

該體系包含:數據規範定義體系、數據模型規範設計、ETL規範研發以及支撐整個體系從方法到實施的工具體系。

 

 

1數據規範定義 

 

 

OneData體系中將此前個性化的數據指標進行規範定義,抽象成:原子指標、時間週期、其他修飾詞等三個要素。

 

如:業務方提出的需求:最近7天的成交

 

分解爲:原子指標(支付訂單金額)+修飾詞-時間週期(最近7天)+修飾詞-賣家類型(自營)

 

 

2數據模型架構 

 

將數據分爲ODS(操作數據)層、CDM(公共維度模型)層、ADS(應用數據)層。

 

ODS層主要功能

同步:結構化數據增量或全量同步到ODPS;

結構化:非結構化(日誌)結構化處理並存儲到ODPS;

累積歷史、清洗:根據數據業務需求及稽覈和審計要求保存歷史數據、數據清洗;

 

CDM層主要功能

CDM層又細分爲DWD層和DWS層,分別是明細寬表層和公共彙總數據層,採取維度模型方法基礎,更多采用維度退化手法,減少事實表和維度表的關聯,加強維度到事實表強化明細事實表的易用性;

 

同時在彙總數據層,加強指標的維度退化,採取更多寬表化的手段構建公共指標數據層,提升公共指標的複用性,減少重複的加工。

 

ADS層主要功能

個性化指標加工:不公用性;複雜性(指數型、比值型、排名型指標)

 

基於應用的數據組裝:大寬表集市、橫錶轉縱表、趨勢指標串

 

其模型架構圖如下,阿里通過構建全域的公共層數據,極大的控制了數據規模的增長趨勢,同時在整體的數據研發效率,成本節約、性能改進方面都有不錯的結果。 

 

 

 

3研發流程和工具落地實現

 

將OneData體系貫穿於整個研發流程的每個環節中,並通過研發工具來進行保障。

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章