漫談數據治理之四：企業數據該怎麼搞

企業數據的特點

在絕大多數的互聯網公司中，數據倉庫都是面向用戶的數據建設，如廣告、電商、遊戲等，相對而言都有比較穩定的業務形態和統計方式。但有一個方向是例外的，那就是企業數據。不論是阿里、騰訊，還是傳統的大企業，任何一家企業做大了之後，內部的組織和管理方式都是非常複雜的，且變動頻繁的，如果數據團隊面向的是企業數據建設，數據治理的場景、方式都會有很大的部分，本篇文章重點分析一下企業數據的治理方式。

從兩個方面來談一下企業數據的特點：業務方面和系統方面。

首先說業務方面，有四個特點：

不同主題的數據相對獨立：與用戶數據較強的關聯性不同（例如用戶-渠道），企業數據的業務概念相對獨立，行政、法務等主題很難有業務上的共性，唯一能產生交集的是員工/組織數據。
部分業務變動較快：以組織數據爲例，由於企業經常有戰略調整，而戰略調整的重點就是組織架構，因此有關的數據統計，在與歷史指標對比時，往往會產生非常大的誤差。
數據分析場景十分泛化：由於企業數據的需求方不是來自於業務驅動部門，而是來自於高層管理者，因而往往會有非常個性化的數據需求。例如不用的高層對於招聘流程的理解就不同，有的非常關心各個環節的情況，有的就只關心社招數據。
數據安全要求很高：企業數據往往是企業的核心資產，帶有大量的機密信息，因而不論是存儲還是查詢，管理都非常的嚴格，一旦泄露，會產生非常嚴重的公關危機。

再說一下系統方面，有兩個特點：

模型變動頻繁：數據模型是數據的業務體現，因而如果企業的組織或運行方式發生變化，數據模型也要隨之變化，帶來的歷史數據查詢、統計指標修改等工作量非常大。
數據質量不規範：由於企業數據不像用戶數據那樣，有非常標準的收集和過濾方式，企業數據往往來自於人工維護，因爲在格式、完整性等問題上會出現較多問題，數據往往要做最後的邏輯兜底。

企業數據的建設方法

企業數據的建設與用戶數據類似，但在細節上會存在一定的不同，接下來一一講解不同的地方。

首先看數據分層：企業數據建議按照ODS、CDM、ADS的方式進行劃分。其中，CDM可以分爲維度部分DIM、清洗部分DWD、中間層DWS三個模塊，但相對之間是獨立的，不存在上下流動關係。數據只能從ODS流向CDM再流向ADS，這樣做的好處是降低層級之間的依賴，便於對基礎數據做統一的維護和管理，避免獨立業務的數據來回流動帶來的口徑不一致等問題。

其次看模型建設：與維度建模在用戶數據的廣泛應用不同，企業數據需要混合建模方式：對於基礎的業務描述部分，採用範式建模；對於統計指標部分，採用維度建模；對於跨主題的關聯分析，採用DataVault建模。由於企業數據所負責的開發同學一般都比較少，對於某個方面的業務要求還比較高，因而不太可能將所有的數據放到一起做整體規劃，因爲分治是必然的方式。在實際的開發過程中，對於每一個獨立的方向，按照獨立主題的方式進行建設，主題的頂層要獨立出一套抽象意義上的公共層。如果對於跨主題有分析和統計需求，那麼拿出每個主題的抽象公共層，可以作爲一個獨立的ODS數據源，再進行分類統計和彙總。

最後看指標體系：用戶數據對於指標體系的痛點其實並不強烈，因爲核心的指標數量並不多。但企業數據不同，指標之多、之雜，已經到了必須用平臺來維護的地步。分析維度多、業務口徑不一致等問題非常突出。因而，在做需求時，需要嚴格的按照指標數據定義方式來進行，例如標註統計週期、分析維度、聚合類型、事實表等信息，不怕指標的名字長，但一定要闡述清楚。

企業數據的治理方式

從上述內容可以看出，企業數據存在比較突出的質量問題，綜合而言有三點：

大量數據由人工維護，存在較高的錯誤可能性；
數據源衆多且週期各不相同，對於最終產出時間影響較大；
數據依賴非常龐雜，排查問題需要花費大量精力。

其實我們把各類問題抽象一下，核心是由兩個原因導致的：

對於業務數據的意識不強，不論是數據錄入方，還是系統開發方，其第一優先級都是保障業務的順利進行，而不是數據鏈路的通暢；
數據的監控範圍有缺失，業務規則、數據質量校驗、產出時間監控、髒數據排查、數據一致性校驗……每一個忽略的數據監控項，都可能導致數據出現問題。

因而，在企業數據的治理方式上，就必須同時強調“人”的重要性和“技術”的重要性。
首先看“人”的重要性：企業數據治理，首在提升質量意識，由於開發壓力巨大，且需求來自高層，因爲往往會來不及對已開發的數據進行重構，從接入需求的一開始，就得考量數據質量的問題；同時，要推動業務方提升數據意識，由於業務方往往不懂數據的邏輯，因爲數據開發很容易成爲數據問題的最終兜底人，背鍋就在所難免。在需求評審時，遇到不合理的問題就要及時提出，一定要把問題的苗頭儘可能的解決在評審階段。
其次看“技術”的重要性：很多時候我們爲了理解業務的便捷性，會開發很多張中間表，但做的越多，依賴關係越亂。因此，如何優化數據加工鏈路，使得數據流程儘可能短、產出時間儘可能早，就非常的考驗功底。同時，由於很多數據面臨全量計算的問題，將常用的員工/組織等數據採用拉鍊表的方式進行存儲，降低需要join的數據量，能夠極大的節約機器資源。

企業數據的安全問題

企業數據的安全問題，要比數據質量問題重視的多。由於數據的獲取往往要跨部門，因而申請對應的數據權限非常常見，久而久之，就會造成權限問題擠壓過多，對於識別數據風險產生干擾。
因此，我們要通過事前、事中和事後三個階段來規範數據安全問題。

事前：數據的存儲要遵循基本的安全規範，例如物理/邏輯隔離、字段安全等級打標、高敏數據加密存儲等；
事中：針對頻繁的數據申請操作進行規範，例如多次申請一次審批，例如申請理由和流程標準化，做好數據披露的全鏈路監控；
事後：已離職員工要及時收回權限，數據操作行爲要以日誌的形式記錄下來，並進行事後分析。

最後，一定要多做數據安全方面的培訓和宣傳，尤其是技術人員，面對繁重的開發任務，往往難以有較高的警覺度。樹立人人安全的意識，及時發現和修補安全漏洞，一定要將數據泄露事件扼殺在萌芽狀態。

漫談數據治理之四：企業數據該怎麼搞

企業數據的特點

企業數據的建設方法

企業數據的治理方式

企業數據的安全問題

DAPPER 事務 TRANSACTION

天下數據，唯快不破

開源組件系列（4）：分佈式消息隊列（Kafka）

開源組件系列（7）：分佈式結構化存儲（HBase）

有關大型數據倉庫三大痛點的個人看法

開源組件系列（10）：集羣化服務資源管理系統（Mesos）

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結