漫談數據治理之四:企業數據該怎麼搞

企業數據的特點

在絕大多數的互聯網公司中,數據倉庫都是面向用戶的數據建設,如廣告、電商、遊戲等,相對而言都有比較穩定的業務形態和統計方式。但有一個方向是例外的,那就是企業數據。不論是阿里、騰訊,還是傳統的大企業,任何一家企業做大了之後,內部的組織和管理方式都是非常複雜的,且變動頻繁的,如果數據團隊面向的是企業數據建設,數據治理的場景、方式都會有很大的部分,本篇文章重點分析一下企業數據的治理方式。

從兩個方面來談一下企業數據的特點:業務方面和系統方面。

首先說業務方面,有四個特點:

  1. 不同主題的數據相對獨立:與用戶數據較強的關聯性不同(例如用戶-渠道),企業數據的業務概念相對獨立,行政、法務等主題很難有業務上的共性,唯一能產生交集的是員工/組織數據。
  2. 部分業務變動較快:以組織數據爲例,由於企業經常有戰略調整,而戰略調整的重點就是組織架構,因此有關的數據統計,在與歷史指標對比時,往往會產生非常大的誤差。
  3. 數據分析場景十分泛化:由於企業數據的需求方不是來自於業務驅動部門,而是來自於高層管理者,因而往往會有非常個性化的數據需求。例如不用的高層對於招聘流程的理解就不同,有的非常關心各個環節的情況,有的就只關心社招數據。
  4. 數據安全要求很高:企業數據往往是企業的核心資產,帶有大量的機密信息,因而不論是存儲還是查詢,管理都非常的嚴格,一旦泄露,會產生非常嚴重的公關危機。

再說一下系統方面,有兩個特點:

  1. 模型變動頻繁:數據模型是數據的業務體現,因而如果企業的組織或運行方式發生變化,數據模型也要隨之變化,帶來的歷史數據查詢、統計指標修改等工作量非常大。
  2. 數據質量不規範:由於企業數據不像用戶數據那樣,有非常標準的收集和過濾方式,企業數據往往來自於人工維護,因爲在格式、完整性等問題上會出現較多問題,數據往往要做最後的邏輯兜底。

企業數據的建設方法

企業數據的建設與用戶數據類似,但在細節上會存在一定的不同,接下來一一講解不同的地方。

首先看數據分層:企業數據建議按照ODS、CDM、ADS的方式進行劃分。其中,CDM可以分爲維度部分DIM、清洗部分DWD、中間層DWS三個模塊,但相對之間是獨立的,不存在上下流動關係。數據只能從ODS流向CDM再流向ADS,這樣做的好處是降低層級之間的依賴,便於對基礎數據做統一的維護和管理,避免獨立業務的數據來回流動帶來的口徑不一致等問題。

其次看模型建設:與維度建模在用戶數據的廣泛應用不同,企業數據需要混合建模方式:對於基礎的業務描述部分,採用範式建模;對於統計指標部分,採用維度建模;對於跨主題的關聯分析,採用DataVault建模。由於企業數據所負責的開發同學一般都比較少,對於某個方面的業務要求還比較高,因而不太可能將所有的數據放到一起做整體規劃,因爲分治是必然的方式。在實際的開發過程中,對於每一個獨立的方向,按照獨立主題的方式進行建設,主題的頂層要獨立出一套抽象意義上的公共層。如果對於跨主題有分析和統計需求,那麼拿出每個主題的抽象公共層,可以作爲一個獨立的ODS數據源,再進行分類統計和彙總。

最後看指標體系:用戶數據對於指標體系的痛點其實並不強烈,因爲核心的指標數量並不多。但企業數據不同,指標之多、之雜,已經到了必須用平臺來維護的地步。分析維度多、業務口徑不一致等問題非常突出。因而,在做需求時,需要嚴格的按照指標數據定義方式來進行,例如標註統計週期、分析維度、聚合類型、事實表等信息,不怕指標的名字長,但一定要闡述清楚。

企業數據的治理方式

從上述內容可以看出,企業數據存在比較突出的質量問題,綜合而言有三點:

  1. 大量數據由人工維護,存在較高的錯誤可能性;
  2. 數據源衆多且週期各不相同,對於最終產出時間影響較大;
  3. 數據依賴非常龐雜,排查問題需要花費大量精力。

其實我們把各類問題抽象一下,核心是由兩個原因導致的:

  1. 對於業務數據的意識不強,不論是數據錄入方,還是系統開發方,其第一優先級都是保障業務的順利進行,而不是數據鏈路的通暢;
  2. 數據的監控範圍有缺失,業務規則、數據質量校驗、產出時間監控、髒數據排查、數據一致性校驗……每一個忽略的數據監控項,都可能導致數據出現問題。

因而,在企業數據的治理方式上,就必須同時強調“人”的重要性和“技術”的重要性。
首先看“人”的重要性:企業數據治理,首在提升質量意識,由於開發壓力巨大,且需求來自高層,因爲往往會來不及對已開發的數據進行重構,從接入需求的一開始,就得考量數據質量的問題;同時,要推動業務方提升數據意識,由於業務方往往不懂數據的邏輯,因爲數據開發很容易成爲數據問題的最終兜底人,背鍋就在所難免。在需求評審時,遇到不合理的問題就要及時提出,一定要把問題的苗頭儘可能的解決在評審階段。
其次看“技術”的重要性:很多時候我們爲了理解業務的便捷性,會開發很多張中間表,但做的越多,依賴關係越亂。因此,如何優化數據加工鏈路,使得數據流程儘可能短、產出時間儘可能早,就非常的考驗功底。同時,由於很多數據面臨全量計算的問題,將常用的員工/組織等數據採用拉鍊表的方式進行存儲,降低需要join的數據量,能夠極大的節約機器資源。

企業數據的安全問題

企業數據的安全問題,要比數據質量問題重視的多。由於數據的獲取往往要跨部門,因而申請對應的數據權限非常常見,久而久之,就會造成權限問題擠壓過多,對於識別數據風險產生干擾。
因此,我們要通過事前、事中和事後三個階段來規範數據安全問題。

  1. 事前:數據的存儲要遵循基本的安全規範,例如物理/邏輯隔離、字段安全等級打標、高敏數據加密存儲等;
  2. 事中:針對頻繁的數據申請操作進行規範,例如多次申請一次審批,例如申請理由和流程標準化,做好數據披露的全鏈路監控;
  3. 事後:已離職員工要及時收回權限,數據操作行爲要以日誌的形式記錄下來,並進行事後分析。

最後,一定要多做數據安全方面的培訓和宣傳,尤其是技術人員,面對繁重的開發任務,往往難以有較高的警覺度。樹立人人安全的意識,及時發現和修補安全漏洞,一定要將數據泄露事件扼殺在萌芽狀態。
在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章