袋鼠雲數據中臺專欄2.0 | 數據中臺之數據源

關於袋鼠雲數據中臺專欄V2.0

數據中臺如何定義?企業數據化與數據中臺的關係是什麼?數據中臺如何支撐企業戰略轉型?袋鼠雲近兩年來,先後爲國內數十家大型龍頭企業提供數據中臺諮詢與實施落地服務,積累了大量的實戰經驗,同時也在爲客戶服務的過程中,不斷完善和昇華自身的數據中臺理論體系和實踐方法論。

希望通過後續文章的分享,與諸位讀者交流,共同加快企業全面數據化進程。

本專欄每週更新1-2篇,敬請期待~

一、數據產生

當今企業在發展和經營的過程中,「信息化」早已是建設標準,在企業運作的過程中,或多或少地,積累了很多數據。在進入到DT時代,數據成爲企業未來成長的引擎也越來越被認可。有先見之明的企業更注重於從方方面面來收集各項數據。我們今天的話題就以數據產生和數據內容加以介紹。

企業的數據產生我們按照主動和被動原則來進行劃分:

  • 被動數據:爲企業事務和流程過程產生的必須數據,即我們一般理解的業務系統,以一般型企業爲例,CRM系統、OA系統、ERP系統、交易系統等則爲被動數據。
  • 主動數據:則是輔助、記錄、日誌等非主線業務,需要額外付出人力和成本主動收集的數據,如:網頁訪問日誌、系統運行日誌、監控數據、門店用戶進出數據等。

下面爲數據存在的載體分佈示意圖:
袋鼠雲數據中臺專欄2.0 | 數據中臺之數據源

在IT早期時代,硬件爲瓶頸,存儲和計算資源的不足,在構建數據模型的過程中,基本是以核心業務系統(即關係型數據庫)爲主,主動數據往往短暫保留或簡單分析後即被丟棄。在進入到雲計算、大數據的時代,存儲和計算的相對廉價,數據的融合和催化效應也越發受到重視,主動數據開始走進公衆的視野,成爲數據中臺之數據來源不可或缺的部分。

二、數據分類

2.1 按來源分類

數據按照來源分類,一般分爲數據庫、日誌、API、FTP文件、IoT、埋點日誌、互聯網爬蟲等。
數據的來源主要影響後續的數據集成和同步,我們需要以不同的技術手段將其同步至數據中臺,以袋鼠雲提供的組件支持如下:

袋鼠雲數據中臺專欄2.0 | 數據中臺之數據源

上述FlinkX、JLogstash、DT.Trace、DT.Crawl 均爲袋鼠雲產品團隊研發的技術組件,支撐袋鼠雲數棧產品體系。

2.2 按結構分類

數據按照結構分類,一般分類結構化、半結構化、非結構化三種。

  • 結構化數據:一般爲二維數據,即行列清晰分明,每一行數據都能拆分成固定的列數,我們日常使用的關係型數據庫(Oracle、MySQL)可以表示和存儲結構化數據。
  • 半結構化數據:一般爲Key-Value型數據,數據格式不固定,如常見的Json和XML即可存儲半結構化數據,一些非關係型數據庫(HBase、MongoDB)也能存儲半結構化數據。
  • 非結構化數據:即沒有固定的數據結構,如我們常見的文檔、圖像、影音、視頻等。

袋鼠雲數據中臺專欄2.0 | 數據中臺之數據源

我們先從數據中臺的輸出來看,一般來說都是以結構化數據提供服務,所以在數據清洗的過程中,會將半結構化數據轉爲結構化數據,然後再進行模型開發。對於非結構化數據,一般以鏈接的方式作爲某個實體的屬性來進行分析。

2.3 按主題分類

在構建業務主題的過程中,我們會對企業的數據按照主題來進行分類。以個人的經驗來看,數據主題一般按照企業業務的核心實體和業務過程來進行劃分。

以電商業務爲例,我們一般按照以下八個主題來劃分線上業務:

  • 會員:註冊會員及潛在會員的各種基礎信息數據。
  • 商品:所有可售賣產品和商品數據,也包括類目、品牌,SPU,SKU等相關商品基礎信息數據。
  • 交易:交易包含線上從加入購物車到下單、支付、發貨、退款退貨及成功交易各個業務過程
  • 營銷:營銷活動過程中的各個業務過程所沉澱的數據。
  • 渠道:包含電商、門店等終端渠道的基礎數據及這些終端渠道本身的創建、維護、關閉等業務過程數據。
  • 日誌:用戶訪問所有平臺包含官網、微信公衆號、電商平臺、App等記錄下的所有日誌數據。
  • 公共:包含企業的組織架構、員工、角色以及公共事務。
  • 物流倉儲:商品在倉儲物流配送過程中的各個業務過程所沉澱的數據。
  • 除此之外,企業的線下過程和企業內部業務,如生產製造、供應鏈、組織效能、財務也會認爲是獨立的數據主題。

數據主題的劃分,是數據中臺規範建模的重要部分,需要抽象提煉、並且長期維護和更新的,但不輕易變動。在劃分數據域時,既能涵蓋當前所有的業務需求,又能在新業務進入時無影響的被包含進已有的數據域或者擴展新的數據主題。

2.4 按模型分類

數據模型表一般分爲維度表、事實表、聚合表三種,在一般的數據源中,很少直接存在聚合表的現象,所以我們將數據源按照維度表、事實表來進行分類。

維度表: 維度表可以看成是用來分析一個事實的窗口,維度表的主鍵爲對應實體的ID,一般還存在一些實體的屬性和特徵說明,不同的維度表之間也會存在一些層級、映射關係。如常見的用戶表、商品表即是維度表。
事實表:事實表其是通過維度、屬性、度量的組合來確定一個事實的,比如通過時間維度、地域維度、度量值可以去確定在某個時刻的一些度量值怎麼樣的事實。事實表的每一條數據都是幾條維度表的數據和度量值交匯而得到的。如交易記錄表、用戶訪問行爲表就是事實表。

以交易表爲例整理維度、屬性、度量後如下:

袋鼠雲數據中臺專欄2.0 | 數據中臺之數據源

在模型初期的整理過程中,可以用E-R圖來清晰來表達維度、屬性、事實之間的映射和關聯關係,以下爲顧客消費商品的示例圖:

袋鼠雲數據中臺專欄2.0 | 數據中臺之數據源

通過此圖我們能快速瞭解顧客維度及屬性、商店維度及屬性、以及顧客和商品間發生的消費行爲而產生的事實。

後記

本期內容對於數據的來源、分類進行了簡單的說明,由於篇幅的原因未能展開,在後面的章節中,會繼續對數據集成、數據模型、數據計算的經驗和技術來進行介紹,敬請期待。
袋鼠雲數據中臺專欄V2.0第八期:
數據中臺之數據集成
敬請期待!

本文作者

袋鼠雲數據中臺專欄2.0 | 數據中臺之數據源

勒蔑
袋鼠雲數據中臺-技術總監,阿里雲全球MVP。
阿里巴巴大數據架構親歷者,先後服務淘寶數據平臺、集團數據平臺、無線事業部數據服務、數據平臺事業部等團隊,參與集團內部天貓雙11、用戶分析系統、移動數據分析等項目。在袋鼠雲期間,負責多個數據中臺項目交付。

關於袋鼠雲

袋鼠雲是企業數據化整體解決方案提供商,是數據中臺架構倡導者、引領者,通過打通數據供應鏈,構建企業數據化驅動引擎,加速企業數據化進程,讓數據成爲企業核心競爭力。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章