建數據中臺,治理煙囪式應用

本文來源 | 至頂網

文 | 鄒大斌

在一個有一定規模的企業中,通常都會存在各種各樣的應用系統,它們分別由企業的各個不同部門、在各種不同歷史時期、爲滿足各種不同業務目的而開發。由於數據格式沒有統一規範,相互之間沒有聯通、數據更沒有整合,像一個個煙囪,因此稱其爲“煙囪式應用”。在大數據應用興起的今天,隨着企業對數據價值的高度重視,煙囪式應用帶來了數據整合難題,給數據的分析和挖掘帶來了不小的困難,已經成爲當代不少企業在大數據應用乃至智能化升級路上的一個攔路虎。

有問題總要找到解決辦法,誕生於互聯網公司的數據中臺技術被認爲一個有效辦法。從阿里幾年前首次將“中臺”這個概念推到市場,到如今成爲行業中的一個熱詞,“中臺”的流行本質上還是用戶的真實需求在支撐。中臺到底能爲企業的大數據利用帶來哪些幫助?國外的企業如何解決這類問題?從硅谷回國創業的大數據專家智領雲聯合創始人、CEO 彭鋒對此進行了自己的解讀。

來自硅谷的數據管理經驗

 

彭鋒於2016年從硅谷歸來,創立了智領雲。彼時中國國內大數據熱還未褪去,“中臺”概念雖然不像今天這麼熱,但已經被不少企業接受。在美國並沒有“中臺”這個概念,但“中臺”所做的事情,尤其是與數據相關的部分(即數據中臺)彭鋒是再熟悉不過了。他從業以來一直在做的就是這些工作。

彭鋒2000年到美國攻讀博士學位,畢業後到了硅谷,先去了當時第四大搜索引擎公司ASK.com,參與分佈式操作系統(就是今天的雲計算)的開發。爲了追趕前面的Google、微軟、雅虎,當時的ASK.COM爲此項目投入了十幾億美元。這個項目後來被放棄,彭鋒轉而參與大數據項目,在原來用作搜索的800多臺服務器集羣上使用Hadoop來進行公司數據的處理,在硅谷是最早一批在生產系統中大規模使用大數據的團隊。在當時的硅谷有如此規模的Hadoop集羣並不多,彭鋒在項目中擔任大數據總監,領導了分佈在美國硅谷、紐約、中國杭州等多地的研發隊伍。2011年,彭鋒加入了Twitter,進入了Twitter架構委員會,擔任大數據架構師,見證了Twitter服務器規模從數十臺擴展到後來的8000臺的過程。

在美國硅谷的這段工作經歷讓彭鋒受益匪淺,其中最大的收穫是看到了數據的價值,這爲彭鋒後來的創業確定了方向。

“它們真的是在用數據產生價值,用數據來驅動所有商業的決策、驅動產品的開發。整個公司都是建立在數據的決策基礎之上,數據決策非常高效和科學。”彭鋒告訴記者。

數據專家智領雲聯合創始人、CEO 彭鋒

彭鋒的另一個收穫是看到了如何更好地讓數據發揮價值。無論是ASK.COM的大數據總監還是Twitter的大數據架構師,彭鋒的核心工作內容都是對數據的採集、分析和處理進行規範,以利於數據能力的共享和重用。爲了做好這個工作,這些公司都專門建立了一個數據運營管理平臺,來確保數據能力的重用和共享,這個平臺與我們今天所說數據中臺的概念高度吻合。

數據中臺成就數據驅動企業

 

在彭鋒看來,無論是美國硅谷所說的數據運營管理平臺還是在中國流行的數據中臺,其核心目的是實現公司的數字化運營。“所謂數字化運營就是公司所有的管理、產品、人員和市場,都全部實現數字化。”彭鋒表示。

而公司之所以要努力實現數字化運營,是這樣能帶來兩個好處:其一是管理者能夠實時瞭解其運營狀況,從而在虧損時能夠及時止損,在賺錢時能夠儘快做決策,大大加快商業流程。其次,能支持數據驅動的產品,比如個性化的客戶服務,就高度依賴數據的分析和挖掘。

而要數字化運營,必須對企業的數據進行全面的梳理和整合,這是一個非常複雜而且長期的工作,其難點之一在於,很多企業(尤其是傳統企業)沒有建立統一的數據格式和使用規範,而整合往往涉及衆多數據源,多種處理框架,面臨很大挑戰,同時,各種來源不同的數據質量也難以保障,系統中運行的數據應用也缺乏統一的管理。而數據中臺的目的就是要解決這類問題,而且是在平臺層面系統解決問題,避免各個部門或者每個項目都要重複做這個工作。

“數據中臺把數據相關的可複用和共享的能力集中起來,而不需要每個部門都重複做。同時,不同部門在使用這個能力時還不能相互影響,需要新的功能直接在這個平臺上擴展。這就避免了今天在不少企業,尤其是傳統企業存在的數據孤島問題。”彭鋒表示。

實際上,在硅谷很少聽說過“數據孤島”這個問題,除了公司歷史普遍不長,一個重要原因正是在於類似數據運營管理平臺廣泛存在。

“國內客戶普遍缺乏這個數據平臺。最常看到的情形是,部門A要做什麼大數據的應用,買了一個大數據方案;部門B如果要做一個大數據的應用,由於底層沒有一個共享的數據運營管理平臺,也會買個端到端的大數據解決方案,這就形成了數據孤島。”彭鋒表示。

做工具,更做賦能者

 

智領雲所研發的產品正是這個在美國硅谷被稱爲數據運營管理平臺、在中國被稱爲數據中臺的軟件系統平臺。

彭鋒認爲,數據中臺的本質或者說最重要的功能是實現數據能力的抽象、共享和複用。其中有幾個關鍵問題:

第一,是要去中心化,讓每個部門都能夠自由地貢獻自己的數據能力。那種通過成立一個單獨的中臺部門,由這個部門來提供數據能力的思路彭鋒認爲不太可行。

“因爲業務部門的業務是不斷變化的,他們與數據結合得最緊密,它們來貢獻更爲實用。而且,硅谷絕大部分公司也的確是讓業務部門通過這個數據運營管理平臺來提供這種能力的複用的。”彭鋒說。

其次,數據中臺要解決資源、應用和數據的隔離,讓每個部門都可以安心地使用自己的數據,運行自己的數據應用,不用擔心數據安全或者影響其它部門的業務。

第三,數據中臺要提供方便安全的數據能力共享的機制,例如數據和模型的服務,以API形式對外提供,供全公司用,API一定是基於統一的框架實現的。業務部門可以很方便的將自己的數據能力共享出去,而安全,審計,性能,擴展這些必須的系統功能由平臺統一自動處理。

彭鋒所領導的智領雲正是基於上述考慮來開發自己的數據中臺。這個數據平臺主要面向大型企業的IT部門或者系統集成商,可以讓他們集成到自己的產品中,藉此來解決數據孤島問題,以推動企業真正實現數據驅動。

“產品化程度高,自助、易用、通用,是我們這個產品的最主要特點,我們希望讓客戶自己就能使用。”彭鋒表示,“這是因爲,我們認爲對數據最瞭解的還是客戶自己,而不是我們。與其我們派專業的數據工程師、數據科學家去跟客戶的IT人員、業務人員打交道,我們還不如去把這個工具做好,讓他們自己來做數據的相關工作。”

彭鋒介紹說,這個數據平臺是一個自助式的數據處理工具,基於雲計算和容器技術實現,能提供數據採集、開發、共享、存儲和管理等相關的功能,典型功能包括數據集成平臺、基於容器的通用任務調度、應用、資源和數據的多租戶管理;數據和模型的服務、審計、計費(用工具來支持);數據應用全景地圖等。

彭鋒強調說,這個平臺一定要基於雲計算和容器技術來實現,這是爲了實現資源和用戶的隔離以及充分利用雲計算的彈性來更靈活地支持用戶需求。另外,在這個數據平臺的研發過程中,他們力求通用性,主要集中在數據科技的核心功能開發上。

當然,產品集中在通用的數據功能上,不涉及具體業務,這並不意味着不用關心客戶業務。實際上,爲了讓客戶用戶這個產品,必須研究客戶行業的典型應用場景,做出模板。此外,彭鋒還決定開發一些具有行業共性的組件,例如形成行業知識圖譜、規則庫,這對產品的落地和未來發展有着重要意義,這些都是彭鋒正在勾勒的公司未來發展藍圖的一部分。

“數據中臺本質上是方法論,是互聯網公司在數據管理方面的一些經驗的總結,實踐證明了其價值。我們希望藉助我們的平臺讓這個方法論在客戶中落地,助力客戶成爲數據驅動企業,讓數據價值得到充分釋放。”彭鋒表示。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章