B. 阿里巴巴 數據中臺 — OneData體系方法論
第一個關鍵點:數據倉庫規劃和數據規範定義
- 基於業務但超越和脫離業務需求限制的抽象:例子
- 業務:電商
- 數據域:交易
- 業務過程:加入購物車
- 業務過程:下單
- 業務過程:支付
- 業務過程:確認收貨
- 業務過程:申請退款
- 維度:訂單
- 維度:買家
- 維度:賣家
- 數據域:會員
- 維度:會員
- 數據域:商品
- 維度:商品
- 數據域:瀏覽
- 數據域:搜索
- 數據域:廣告
- 數據域:公共
- 維度:BU維度
- 數據域:交易
- 業務:金融
- 業務:雲業務
- 業務:電商
- 基於以上抽象出的業務過程和維度,進一步定義
- 定義原子指標
- 定義業務限定
- 定義計算週期
- 定義計算粒度
- 基於原子指標、計算週期、業務限定、計算粒度,可以結構化定義出派生指標,並以集成原子指標的數據類型、算法簡單說:結構化指標的計算參數
第二個關鍵點:數據模型設計
- 思路
- 數據模型設計建立在數據規範定義的基礎上,這就從業務應用或者需求來源控制了數據模型設計的重要輸入源頭
- 對數據模型嚴格分層,在統一的數據公共層的同時允許數據應用層百花齊放
- 從業務和技術雙規視角出發,嚴格要求遵守能達成數據模型設計“高內聚、低耦合”的流向要求
- 公共邏輯下沉
- 核心模型與擴展模型分離
- 成本與性能平衡
- 一致性
- 命名清晰可理解
- 數據可回滾
- 具體落地
- 第一步:統一ODS數據基礎層,從職責到團隊組成,再到權限管控,全部實現統一,以確保數據在業務端產生後進行數據倉庫時的落地唯一性
- 第二步:基於業務應用或者需求來源端抽象數據域治理,特別關注核心業務模型,通用DWD明細數據中間層預JOIN處理,DWS彙總數據中間層沉澱常用統計維度和複用性高的指標,再結合數據技術本身的熱度分析和數據應用預估,豐富和完善數據中間層數據建設
- 第三步:在建設ADS數據應用層時,遵循百花齊放、快速響應的原則
- 優先從數據中間層向上整合,以滿足業務的應用或需求
- 如果當前數據中間層不能滿足,則快速完善數據中間層
- 不適合沉澱到數據中間層的、非常個性化和定製化的服務,纔會在數據應用層新加工生產