漫談數據治理之三:流程上的規範化

治理理論概述

我們目前所積累的數據治理經驗,大多數是在互聯網場景下的,且與自己工作高度相關。如果想更進一步的搞好數據治理,就應該看一下業界相關的一些權威機構的理論。以國際數據管理協會,也就是DAMA,協會提供了一種DMBOK方式,覆蓋了企業數據管理領域的十個方面,十分適合阿里騰訊這種大型企業。可以說,這是一個很不錯的參考框架,用來對比我們目前的數據管理工作,尋找不足之處。

下圖爲數據管理十方面理論:
在這裏插入圖片描述

下圖爲十方面理論每個方面的內容詳情:
在這裏插入圖片描述

這裏對10個職能翻譯一下,內容如下:

  • 數據治理
  • 數據架構管理
  • 數據開發
  • 數據操作管理
  • 數據安全管理
  • 數據質量管理
  • 參考數據和主數據管理
  • 數據倉庫和商務智能管理
  • 文檔和內容管理
  • 元數據管理

治理思路概述

我們將上一章節的內容作總結,數據治理大概可以從兩條路來進行考量,一種是全局出發制定完善的流程,一種是從局部出發先解決閉環問題。

  • 全局出發:要遵循完整的10個治理內容,就需要領導者有推進的能力,將數據治理放在數據職能之上,通過完整的規範來落地執行措施。這種方式實行成本較大,執行週期很長,但落地效果一般都很不錯,適合中層管理者來推動執行。

  • 局部出發:假如數據職能的要求非常高,數據治理優先級要低一些,也可以通過啓動治理事項的方式,先解決局部的小問題,例如文檔撰寫,通過項目的形式來實現目標。

治理流程實踐

在筆者的實際工作場景中,數據質量與數據職能的要求同樣高,因而不能簡單的只進行局部優化,也沒有足夠的精力進行全局優化。因此,筆者將數據治理的流程進行簡化,挑選最終的部分予以保障,捨棄掉一些提升不大的項目。在實際的工作中,有四點是最重要的:質量、資產、操作和文檔。

  • 日常操作:明確數據開發的規範,例如表名、分層、代碼規範、註釋、上線流程等。
  • 數據質量:重點關注四個方面,第一個是基線延遲,也就是監控我們的任務是否能按時產出;第二個是數據量波動,如果波動較大,意味着業務過程多少出現了問題;第三個是業務指標異常,例如PV、UV等出現了大範圍波動,通常意味着業務出現了問題;第四個是相同指標統計結果不一致,這個問題需要有完善的OneData體系建設,能夠避免因爲口徑問題被業務方質疑。
  • 文檔撰寫:文檔要及時補充三點內容,第一個是數據模型,要及時更新業務系統的相關邏輯,可沉澱指標加入到公共庫中,並且建設好對應的中間層,避免後續重複開發工作;第二個是開發規範,及時做好CodeReview,加好代碼註釋,對腳本參數進行相應的規範;第三個是及時更新需求模塊,該補充評審的內容加上,可以簡化的部分去掉。
  • 資產管理:從實際消耗的計算和存儲資源出發,當集羣資源達到一定的限制,例如存儲達到80%,就開始啓動治理專項。

我們組成一個環形:
日常操作 -> 數據質量 -> 文檔撰寫 ->資產管理。
也就是,日常操作遵循一定的規範,任務上線後遵循一定的數據質量配置流程,項目結束後及時撰寫文檔,定時對資產進行盤點。有了這個環路治理,基本上絕大多數的問題都能被覆蓋掉。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章