你想了解的數據架構都在這

一、背景

最近領導和團隊溝通,想提高數據建模團隊的能力。結合自己工作的經驗和朋友的交流,來總結下如何去做。

二、我做過什麼

很多大數據數據倉庫人員都是從事過傳統BI業務或者數據庫業務的。傳統BI一般都是Oracle存儲過程,O是真的牛,很多銀行和電力業務目前還是存儲過程寫的業務代碼。自己曾經親身經歷過,兩千行的業務package,寫起來和改起來特別有“成就感”!後來聽說了Hadoop,網上自己自己找資料,Win環境搭建了起來,現在去百度還能搜到那篇文章。後來再也不推薦別人去碰Win搭建Hadoop!

後來機遇,進了大數據行業,參與主導了一些大數據從無到有的建設過程。真的很感謝那段晚上十點後回家的歲月,還有工作中的夥伴,這段工作算是自己的一個能力的很大提升。從沒有接觸過Linux到寫過近1000行的數據處理腳本,現在公司應該還在用吧。接觸運維了百億級別數據聚合秒出的Vertica (商業軟件真好用),建了一個100多人的技術交流羣,雖然不活躍,但確實幫到很多人。(還專門申請了一個Vertica的域名,部署了自己博客 http://vertica.club/ ,又該續費了……)

瞭解了zeppelin,參與了早期的一些功能建議和驗證,雖然後來工作中沒用到,自己也沒有再跟社區,但這個工具真好用,這是專門給數據人的工具,非常好,可以寫出很漂亮的數據報告。(下面找我名字吧…)

三、數據人應該做什麼

還是說說我熟悉的數據倉庫建設。個人認爲數據人員可以走兩個大方向提升自己(當然數倉理論知識必須得掌握),一、精通業務,熟練SQL,加強工程能力。記住工程能力很重要!二、瞭解算法,掌握PYTHON,熟練做分析。我是那種什麼都想做的人……

1)、精通業務,就要做到業務指標的標準由你說了算,努力成爲業務專家,參與一些重要指標的定義。比如去看公司的Wiki,通過在公司熟悉的同事找到業務架構負責人,瞭解相關資料。

2)、熟練SQL,並不僅僅是熟練寫。要做到了解SQL的執行計劃,掌握執行數據庫環境的調優。當然很多人會說這是DBA做的工作,但是數據人應該比DBA寫的SQL多吧,當你發現你寫的一段邏輯能從1個小時優化到5分鐘,你就會發現這是多有成就感。掌握數據庫,要從數據庫的存儲架構出發,掌握數據庫的簡單管理,熟練應用場景。最終你掌握幾種數據庫使用後,你會發現你能夠幫助公司或部門做數據庫選型了。

算法這個筆者自己現在還沒真正入門,學習中……,歡迎大神帶進門!

四、如何做

1),既然是做大數據的數據倉庫,對大數據各個組件要有了解,對大數據整個處理架構要有了解,從數據採集,到處理,再到數據展示,數據運營等,都需要了解。推薦一本書《大數據之路》,很感謝上家公司選購了這本書,給員工看。

2),SQL 熟能生巧,其實可以嘗試用SQL寫一些小工具,記得自己15年的時候閒暇寫了一個身份證解析的包,大家用着很不錯。附上代碼 :https://blog.csdn.net/windyqcf/article/details/46048657

3),養成筆記的習慣,記得剛開始接觸Vertica數據庫的時候,自己上網百度,很少有資料,沒辦法,只能自己看英文版的官方文檔,在自己的環境和工作中嘗試總結,形成博客,慢慢發現自己積累了很多。

五、數據中臺的理解

  • 什麼是數據中臺

    數據中臺的概念最是阿里提出來的是爲了實現數據的分層和水平解耦,提供數據服務能力。看了那麼多中臺的概念,對中臺也有些自己的理解。筆者認爲中颱主要是爲了提供全域的數據服務。主要包括以下4部分:數據資產、數據治理、數據模型、數據服務。 image

    打通數據建模對全域數據進行沉澱形成數據資產,從而提供統一的數據服務功能。

  • 如何建立數據中臺

建設數據中臺主要就是從數據模型、數據資產、數據治理、數據服務四部分出發。

首先需要做整體規劃,哪些數據需要納入到數據中臺中,根據數據接入的情況,進行技術選型,評估集羣的配置,規劃至少3年的計算和存儲資源。

  • 數據模型

    數據模型,就是我們熟悉的數據倉庫中的模型,按照數據倉庫規範分層開發模型,實現數據的標準化,多采用維度建模。還有一些挖掘模型,如果用的多了,也可以沉澱到數據中臺中。我們可以看出數據中臺中的模型具有通用性。

數據建模一般分爲2個步驟:

  1. 確認事實表,分析業務的生命週期,明確業務的關鍵步驟。在進行指標定義的時候是否覆蓋了本主題語中的全部指標,判斷哪些指標可以通過加減乘除計算得到等。
  2. 確定維度,粒度是模型設計的關鍵,太細的粒度不利於上層數據分析彙總,太粗的粒度又不能滿足前段多維度個性化查詢需求。基於此,模型設計時候一般考慮分層,層級越往後,粒度越粗。冗餘維度也是需要考慮的,設計冗餘的維度可以避免統計中過多的關聯導致複雜的計算邏輯,影響性能。
  • 數據資產

在數據倉庫中我們已經建立了一些模型,但是隻有打通數據孤島後纔可以稱爲資產。需要規範指標庫,這些指標可以組合處理滿足外部人員個性化的指標需求。資產管理的基礎是做好元數據管理,元數據包括採集的接口信息,模型信息、指標定義,作業的血緣關係、數據存儲以及訪問情況等。

  • 數據治理

很多數據倉庫人員曾淪爲“表哥”,天天忙着提取數據覈對指標,時間長了,業務人員容易對你的數據不信任。數據治理主要是爲了保障數據資產的完整性、準確性、一致性、及時性。根據指定的規範開發模型、校驗模型、管理模型,爲業務提供統一的、準確的指標保駕護航。

  • 數據服務

數據中臺最重要的就是要對外提供統一的服務能力。數據服務需要包含以下幾個能力:

  • 數據接口標準化:提供統一的數據服務在線查詢視圖,讓開發者能夠快速、簡單的訪問數據服務;

  • 數據開發可視化:提供服務接口的可視化配置,開發者只需要配置SQL就可以生產API,減低接口開發技術要求,便於維護和接口管理。對於業務分析人員可以讓他們輕鬆的進行算法分析,包括模型管理、可視化編排流程,算法模型發佈等功能。

  • 數據中臺和數據倉庫有什麼不同

很多人對數據中臺和數據倉庫兩個概念可能不是很清楚,其實最主要的是思維理念不同,數據倉庫是“管理數據”,數據中臺是“經營數據”,數據中臺是爲了提供服務而生(也有說是爲了前臺而生)。

參考資料:《數據中臺-阿里巴巴的數據整合、價值發掘、社會賦能之道

[1] https://img-blog.csdnimg.cn/20190226204152675.jpg

[2] https://yq.aliyun.com/articles/297782

歡迎關注公衆號:數據社

回覆關鍵字,下載數據相關資料

在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章