《數據中臺架構:企業數據化最佳實踐》:感受數據中臺建設五步法

寫在前面:我是「雲祁」,一枚熱愛技術、會寫詩的大數據開發猿。暱稱來源於王安石詩中一句 [ 雲之祁祁,或雨於淵 ] ,甚是喜歡。


寫博客一方面是對自己學習的一點點總結及記錄,另一方面則是希望能夠幫助更多對大數據感興趣的朋友。如果你也對 數據中臺、數據建模、數據分析以及Flink/Spark/Hadoop/數倉開發 感興趣,可以關注我的動態 https://blog.csdn.net/BeiisBei ,讓我們一起挖掘大數據的價值~


每天都要進步一點點,生命不是要超越別人,而是要超越自己! (ง •_•)ง

一、前言

數據中臺可以說是當下非常火熱的話題,在BATJ等互聯網大廠大肆推廣中臺建設成果的當下,各個行業的企業似乎都想做數字化轉型,建設業務中臺,但是中臺到底是啥,需要我們提前瞭解和學習。本文是我學習張旭老師《數據中臺架構:企業數據化最佳實踐》一書的總結,閱讀之後初步地瞭解所謂的中臺戰略,但又還是停留在感性層次,有點淺嘗輒止之感。

在這裏插入圖片描述

當前的數據中臺定義是寬泛的,這與數據中臺目前所處的實際業務階段相符合。書中作者張旭老師認爲數據中臺至少首先是一個分佈式的數據倉庫,同時包含相對應實施的方法論和方案,介於分佈式數據倉庫和企業全面數據化中間的任意一個點都可以被定義爲數據中臺。

可以說,數據中臺是實現企業全面數據化的一個解決方案,是一套支撐企業全面數據化的架構,會成爲企業開展全面數據化的基礎設施。

但數據中臺這個東西,現在業界並沒有一個完整的標準定義,每個人的經驗和視角也不同,因此可能一百個學習者心中會有一百個中臺,這裏我主要結合我關於數據中臺的學習做個總結:

(1)中臺是什麼?

企業級能力複用平臺!

(2)如何構建中臺?

一句話概括:“以用戶爲中心,從戰略入手,願景爲指引,用科學有效的方法,步步爲營沉澱企業級能力,輔以必要的組織與系統架構調整,方得中臺。

(3)中臺的價值是啥?

中臺爲前臺而生,專注於爲前臺賦能,沉澱企業的能力與複用,提升企業的客戶響應力。

(4)如何成爲數據中臺的參與者?

數據中臺圍繞數據技術開展。除了編程技術、應用開發技術與傳統的IT應用技術具有部分的重合,數據中臺還有自己的技術體系,比如大數據開發技術、數據倉庫建模技術、數據分析體系、數據應用技術體系等。

二、中臺的發展歷程

瞭解一個東西,需要首先了解它的發展史,又或者說看看它的過去,這裏我們就先看看中臺的發展歷程:

  • 2008~2015:孕育期

    • 2008年阿里巴巴開始戰略調整,重複建設與煙囪架構問題出現

    • 阿里共享事業部誕生,前臺系統中的公共部分開始平臺化改造

  • 2015:中臺戰略誕生

    • 馬雲帶領阿里高官走訪芬蘭遊戲公司Supercell受到觸動

    • 阿里巴巴正式啓動中臺戰略“大中臺、小前臺”

  • 2017:橫空出世

    • 互聯網大廠集體發聲,各自分享中臺建設經驗
  • 2018:全面爆發

    • 互聯網大廠集體宣佈組織架構調整,正式將中臺推上舞臺
  • 2019:迷霧仍存

    • 中臺的熱度越發高漲,跟進企業越來越多,但問題不降反增

從2015年阿里提出了“大中臺,小前臺”的中臺戰略,提出之初阿里有近 4 億用戶,爲超過 1000萬各類企業提供服務,業務種類繁多,業務之間相互網狀依賴。同時,阿里部門也越來越多,分工越來越細,溝通過多,相互依賴,創新成本非常高,對業務響應也越來越慢。

在這裏插入圖片描述

阿里需要找到能夠對外界變化快速反應,整合阿里各種基礎能力,高效支撐業務創新的機制,於是“中臺”的概念就出現了。

如今,不管是身處浪潮一線的互聯網大廠,還是傳統行業的轉型企業,似乎在2020年都有建設一箇中臺的需求(至少都在採取行動或開始學習),不管真的想進行能力沉澱複用 還是 追概念來個彎道超車,中臺正在被越來越多的人熟知。

在這裏插入圖片描述

三、數據中臺實踐

以下是我閱讀《數據中臺架構:企業數據化最佳實踐》一書的學習筆記,所有內容出自張旭老師的這本書。

第一步:數據資源的盤點與規劃

數據化的基礎是信息化或者信息化所產生的數據。這些數據本就有數據化的含義,同時這些數據又會進入數據化框架體系,繼續通過計算產出更多的數據和更大的價值。所以,對企業數據資源的盤點是數據化建設的前提和基礎。一份完整、準確的數據資源是後續數據化建設的有力保障。

數據資源的盤點與規劃需要達到以下目的:

(1)對現有數據資源盤點和統計。

(2)對企業可以擁有或者應該擁有的數據資源進行規劃。

(3)構建盤點體系並使用必要工具,保證盤點的成果能夠始終與真實情況相符。

第二步:數據應用規劃與設計

企業要基於現有的技術條件和方案,進行相對完整的數據應用規劃。這個步驟可以回答如下問題。

企業中有哪些數據需求

我們要從業務線、業務層級到最細粒度的崗位,梳理數據需求。

企業應該構建哪些數據應用

我們要圍繞數據需求進行數據應用的整體規劃和設計。

應該按照什麼順序實現這些數據應用

我們要對數據應用建立評估模型,評估的維度包括數據應用是否可以實現、數據應用的業務價值、數據應用的實現成本這三個主要方面。通過評定結果,我們可以確定數據應用的實現路徑。

第三步:數據資產建設

數據資產的建設要依託數據中臺的核心產品完成。數據資產是企業數據化建設的關鍵基礎。所有的數據化建設最後都以數據資產爲基礎,並且圍繞這個基礎展開。數據資產將是企業在全面數據化建設前期中投入最多、見效最慢的基礎層模塊。關於數據中臺的種種探討和爭議以及妥協的很大一部分原因是這個基礎建設龐大、複雜和投入高。

數據資產建設的內容包括以下幾個方面:

技術建設

(1)產品選型。產品選型包括如何選擇數據中臺產品、數據中臺產品應該具備的功能以及技術參數指標。

(2)技術架構設計。技術架構設計包括數據中臺產品如何部署、如何替換傳統的數據倉庫或者與之並行、數據中臺如何抽取當前的應用數據。

標準和數據倉庫模型構建

(1)建模及開發規範。建模及開發規範包括數據倉庫模型設計規範的制定,數據開發規範的制定,如何避免當前較爲常見的數據開發混亂、難以運維的情況。

(2)數據建模。數據建模包括進行數據倉庫模型構建,並提交評審。

數據抽取、數據開發、任務監控與運維

(1)數據抽取。數據抽取包括從數據資源層抽取數據進入ODS層。

(2)數據開發。數據開發包括進行數據任務開發,進行數據清洗、數據計算。

(3)任務監控與運維。任務監控與運維包括監控所有數據任務,對異常和錯誤任務進行必要的人工干預和處理。

數據質量校驗

數據質量校驗包括對當前發現的數據質量問題進行校驗和處理,推動數據治理工作開展和持續優化。

數據應用支撐

數據應用支撐包括爲當前的數據應用開發提供支撐開發平臺。

第四步:數據應用的詳細設計與實現

不管是使用瀑布模型還是敏捷模型,數據應用的設計大體上都可以遵循傳統信息化應用設計的過程和理念。數據應用中的數據開發一般在數據庫或者數據倉庫中完成。數據應用的內容展示可以採用BI分析工具展現,例如可視化大屏或者定製化開發應用。數據應用還可以通過API接口服務提供數據成果,讓其他外部應用按需調用。數據應用的開發與傳統信息化應用的開發有以下不同之處。

數據應用關注數據源的內容和質量

我們在數據應用實施前應該充分了解企業當前的數據源情況,包括數據種類、每種數據的具體屬性、數據內容的質量等問題。大部分落地失敗的數據應用,都是由數據源的各種問題引起的,比如數據缺失或者數據質量問題。

複雜的數據開發需要不斷調優和迭代

隨着機器學習、深度學習等算法的引入,數據模型的構建手段越來越豐富。但是在通常情況下,最終業務價值的產生是一個複雜的過程,不僅需要數據的支撐,還需要管理的配合。

數據應用的結果數據的驗證工作量佔比高

論證數據結果的正確與否或者評估數據應用的效果,是一項費時、費力的工作。即使相對簡單的指標計算,最後也經常會佔用全部過程中1/3以上的時間進行正確性驗證。甚至很多算法類項目,需要提前構建成果評估模型,並首先獲得甲方企業的認可,然後才能開始進行數據開發。

數據應用的運維難度大

因爲數據中的各種異常情況往往是不可知或者意想不到的,所以數據運維需要有強大的人工保障,以保持任務的運轉。

數據應用的成果需要運營

數據應用的開發完成只是數據發揮價值的第一步,如何讓業務部門理解模型、用好數據纔是後續的關鍵。尤其是在剛剛引入新的數據,且尚未顯現業務價值的時候,企業更需要對數據進行深入運營。

第五步:數據化組織規劃

企業數據化應該是在未來一個時期內具有企業戰略高度的事情,數據化需要一個具有同等戰略高度的組織負責推進。無論是從傳統的IT部門轉型還是由戰略部門或者類似部門介入都是很好的選擇。組織是保障數據中臺順利落地的一個核心,也是推動企業數據化進程的人員抓手。

四、總結

張旭老師在書中一個觀點我是非常贊同的:“數據中臺是實現企業全面數據化的一個解決方案,是一套支撐企業全面數據化的架構,會成爲企業開展全面數據化的基礎設施。”如果用技術語言總結就是:“前臺聚合,中臺解耦,數據融合,業務創新”。

隨着大數據和人工智能的進一步普及,幾乎所有的傳統企業都在擁抱並推動自身數字化轉型。作爲一本數據中臺實踐,內容基本上覆蓋了企業數字化實戰的方方面面,對方法論、實施路徑、平臺、數據應用等方面都有闡述,有着一定的借鑑價值。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章