大數據演進:從數據倉庫到數據中臺

轉自:https://www.sohu.com/a/396680882_411876?scm=1002.44003c.17c024f.PC_ARTICLE_REC
作者:顏博,馬蜂窩數倉研發總監

第一階段

21世紀的第一個10年,企業級數據倉庫(EDW)從萌芽到蓬勃發展,“IOT”( IBM、Oracle、Teradata)佔領了大部分市場,提供數據倉庫建設從硬件、軟件到實施的整體方案。
這個時代的數據倉庫實施不僅需要購買大(中、小)型機,配套商用的關係型數據庫(Oracle、DB2、SQL Server)以及一些ETL/OLAP套件,實施成本相對高昂,數據倉庫建設主要集中在金融、電信、大型零售與製造等行業。
數據倉庫的應用主要通過爲企業提供報表、分析等數據,輔助企業的經營決策。像電信行業的經營分析系統、銀行的風控管理等,都是這個期間比較典型的應用。

第二階段

2010-2015年,大數據平臺階段,移動互聯網的飛速發展帶動Bigdata(大數據)的發展。其中Hadoop生態技術開始逐步在國內大範圍使用,企業只要基於Hadoop分佈式的計算框架,使用相對廉價的PC服務器就能搭建起大數據集羣。
數據湖的概念也是這個階段誕生(主要是爲降低傳統數倉較爲複雜的中間建模過程,通過接入業務系統的原始數據,包括結構化、非結構數據,藉助hadoop生態強大計算引擎,將數據直接服務於應用)。這個階段不只是金融、電信這些行業,國內主流互聯網企業也紛紛搭建起大數據平臺。
大數據應用更爲豐富,不僅限於決策分析,基於APP/門戶站點的搜索推薦、以及通過A/B Test來對產品進行升級迭代等是這個階段常規的應用點,用戶畫像在這個階段也得到重視,主要應用於企業的營銷、運營等場景。

第三階段

就是我們現在所處的階段,數據中臺以及雲上大數據階段,通過前10多年不斷的技術積累,大數據在方法和組織的變革上也有了新的沉澱,主要體現在幾個方面:

1)數據統一化

其核心思想是數據流轉的所有環節進行統一化,如從採集到存儲到加工等過程,在這些過程中通過建立統一的公共數據模型體系、統一的指標與標籤體系,提高數據的標準性、易用性,讓數據本身更好地連通,提升使用效率。

2)工具組件化

數據在採集、計算、存儲、應用過程中涉及多業務線條,多場景,將這些場景與工具(採集工具、管道工具、計算&調度工具、數據服務工具,數據管理工具、可視化工具等)進行沉澱,研發出通用、高效的組件化工具,避免重複開發,降低研發成本。

3)應用服務化

之前大數據應用的數據調用比較混雜,有些直接訪問數倉數據表,有些調用臨時接口等。通過數據中臺應用服務化建設,提供標準的應用服務,以數據可視化產品、數據API工具等服務,支撐應用的靈活調用。

4)組織清晰化

數據中臺團隊專注於數據內容&數據平臺開發,提供各種基於數據的能力模塊,而其他部門人員如業務產品、運營、分析等角色,只需要藉助工具/產品有效地使用數據,發揮其價值,無需關注數據加工的過程,做到各盡其職,充分發揮各自專長,同樣也能達到降本提效目的。大數據團隊內部本身組織和職責也傾於清晰化,比如按照職責分爲平臺(工具)研發、數據研發、數據產品、數據分析等不同組織。

當前階段

數據應用到各個角落,除了之前可以支撐的決策分析以外,大數據與線上事務系統(OLTP)的聯動場景非常多,比如我們在電商平臺查詢個人所有歷史訂單,再比如一些刷單、反作弊的實時攔截,以及一些實時推薦等,這些都是通過將數據的運算交給數據中臺部門處理,前臺部門直接通過API進行結果調用。數據中臺的集中化建設也更好地支撐起創新業務,比如通過大數據+分析建立起商業化數據變現產品,進行數據售賣,把數據變成新的業務。
大家知道共享複用是中臺建設中很關鍵的一個詞,這也是爲什麼我們很多數據中臺下面會包括共享數據組,公共數據組等。實際上共享複用並不是大數據發展的一個新詞,在早期數據倉庫(建立公共數據模型)、大數據平臺(研發一些組件化工具)的建設中,也是滿足共享複用的。
如上提到,數據中臺本身是組織,方法的升級與變革,更多是利用技術的進步更好地支持這些升級變革,如果你當前的建設還是數據平臺+數倉(數據湖等)但是已經具備這些方法和特性,我個人認爲也是合理的。
數據中臺的建設也需要相應的成本與門檻,例如集羣搭建、工具建設等。雲計算的發展可以快速提供數據中臺建設的能力,例如企業無需自己搭建機房,使用雲計算的彈性計算存儲能力以及豐富的工具,可以支撐數據中臺的快速搭建。
關於數據中臺的合理性也一直頗有爭議,大型(集團型)公司有相互獨立的子公司,數據之間不需要太多連接與共享,分別構建自己子數據中臺也是合理的架構,集團層面可以利用數據子中臺進行數據上報解決集團層面數據大盤、統計、分析、財務等訴求。再比如一些小型公司是否需要在一開始就按照數據中臺的架構進行建設,也是存有一些爭議。
數據中臺是2015年阿里提出來的雙中臺的概念其中的一個重要組成,阿里作爲先驅者,提供了數據中臺架構、以及非常多的建設思路供大家參考。從目前的建設效果來看,很多公司在數據中臺建設中有不錯的成效(尤其是大中型公司),數據中臺整體思路得到了驗證。但是數據中臺本身還算一個新鮮事務,這個新鮮事務目前還沒有標準答案,只有參考答案。
 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章