寫給數據分析師的數據倉庫知識(1)

數據庫

說到數據庫,我們一般是指傳統的關係型數據庫,也就是“聯機事務處理”(OLTP),主要用戶在線交易處理。比如銀行業務、電信業務之前很多都是Oracle或者DB2(可能現在很多開發者沒再用過),到後來的互聯網電商用的MySql,這些都是關係型數據庫。

後來有了newSQL、NoSQL(not only sql),現在也分了很多種類,比如大型互聯網公司存儲用戶畫像的HBase,還有用於存儲文檔,日誌,問答等內容的文檔數據庫MongoDB,建議大家都去了解一下。

關係型數據庫,大多都有主鍵這個概念。比如我可以通過手機號(主鍵)來查詢用戶都存儲的什麼信息。

數據倉庫

數據倉庫:數據倉庫系統的主要應用主要是OLAP(On-Line Analytical Processing),支持複雜的分析操作,側重決策支持,並且提供直觀易懂的查詢結果。

數據倉庫彙總有可能有很多維度數據的統計分析結果,取百家之長(各個數據源的數據),成就自己的一方天地(規劃各種業務域的模型,指標)。

舉個栗子~

  • 車聯網早期是肯定沒有數據倉庫的,剛開始啓動階段就是車上發送什麼數據我就存儲什麼數據,比如出現告警,就實時展示出來給用戶。

  • 慢慢的車多了,傳統的關係型數據庫已經受不了壓力了,就需要我們升級架構,多個服務器,多個業務庫。這個階段的業務指標還可以勉強從業務數據庫裏查詢。

  • 隨着業務的發展,數據爆發式增長,公司的大神越來越多。和其他部門的聯繫也越來越緊密,業務的同事知道有這個好工具,也行用一下。負責電池的王老師來了說,我想知道現在咱們車輛的充電情況分佈和天氣是否有關係。程序猿小A說,“好的,但是需要等一個月我把天氣數據爬下來,在把充電數據跑一下,然後再彙總一下就好了”。王老師默默的走了,再也沒有來找過小A。

  • 慢慢越來越多的王老師來了,發現我們都無法及時解決問題。公司的CIO就要求我們想辦法了。這時候【數據倉庫】來了,我們把各種渠道收集的數據提前做好模型(初級數據彙總)。分各個業務主題,很多個表。比如電池就有一個主題了。這次小A主動聯繫王老師,表達了可以提供各種服務(在繁雜的SQL苦中作樂)。

    參考書籍《數據倉庫工具箱》

  • 後來越來越多的王老師來找小A,包括其他部門的程序小姐姐。小A不想被一羣小姐姐再煩了,於是設計了"數據中臺"

    參考
    淺談數據中臺

總結

說了這些數據倉庫有什麼過過人之處,第一提高生產力,第二,多源關係數據管理。數據倉庫不是一個組件(技術),更像是一種方法論。

爲什麼前兩年大數據環境下,數據倉庫概念火了。其一,以前做過傳統電信行業數據倉庫的先行者,沒有及時佈道(畢竟之前沒有微信這種好工具)。其二,互聯網行業的興起,數據量暴增,需求場景更明確了。其三,技術和方法論都是靠傳播的,技術人的宣傳,加上阿里出版的一些書籍(大數據之路)對此專業都推動巨大。

更多請關注微信公衆號:DataClub

在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章