數據治理--元數據

數據治理–元數據

元數據是對某個潛在信息性對象做出的陳述。在瀏覽其他網頁的時候會看到元數據被稱之爲 “數據的數據”。爲了更好的描述元數據到底是什麼東西,我以一本《Metadata》書作爲例子進行說明。《Metadata》第二頁記錄着該書的 CIP 信息、作者、出版社、書號、定價、印次、字數等信息,而這些信息都是用於描述《Metadata》這本書的元數據。

一條元數據記錄就是關於一個資源的主謂賓陳述集合。例如:達芬奇(賓語)是蒙娜麗莎(主語)的創作者(謂語)。

主數據、元數據與參考數據

image-20200205130748525

元數據

元數據(meta-data)是描述企業數據的相關數據,指在IT系統建設過程中所產生的有關數據定義,目標定義,轉換規則等相關的關鍵數據,包括對數據的業務、結構、定義、存儲、安全等各方面對數據的描述。地市表這個實體的數據模型如何進行定義正是元數據所關心的範疇。

元數據可以說是企業的數據地圖,它直接反映了企業中有什麼樣的數據,數據是如何存放的,例如,數據結構是什麼樣子,數據與業務之間的關係是怎麼樣,數據與數據之間的關係是怎麼樣,數據有什麼樣的安全需求,數據有什麼樣的存儲需求。

主數據

主數據(main data)主要是指經實例化的企業關鍵數據

我們在上面設計完成數據模型設計的“城市表”中填寫了相應的城市數據,例如,北京、上海、廣州、南寧等等。這些在城市表中填充的數據,正是組織中國地理協會的主數據,因爲這些數據是中國地理協會這個組織的關鍵業務實體,它爲組織的業務開展提供關聯環境,而且它可能在企業業務開展過程中被反覆引用。針對這些核心關鍵數據,組織和企業無論從數據的質量、一致性、可用性、管理規範等方面都應該有着最嚴格的數據要求。

主數據就是企業被不同運營場合反覆引用關鍵的狀態數據,它需要在企業範圍內保持高度一致。它可以隨着企業的經營活動而改變,例如,客戶的增加,組織架構的調整,產品下線等;但是,主數據的變化頻率應該是較低的。所以,企業運營過程產生過程數據,如生產過程產生各種如訂購記錄、消費記錄等,一般不會納入主數據的範圍。當然,在不同行業,不同企業對主數據有不同的看法和做法,正如我們與國內大型航空企業的實施相關數據項目時,也在爲航班動態是不是主數據而糾結不已。

個人覺得主數據具有跨行業也能存在能力,同時實例數據變更是低頻的。 例如商品價格信息、會員信息是主數據,而訂單信息不是主數據,它具有高頻更新存在。因而怎麼算高頻就是一個仁者見仁智者見智的情況了,需要結合自己所在的行業進行判斷。

參考數據——數據的字典

在本文引用的假設案例中,我們將會注意到剛纔填寫的地市這類數據有些列,如省份、城市類型等。如果沒有缺少上下文的環境,我們是無法理解其具體含義,這時候我們往往引入參考數據(reference data)加以解釋和理解。

**參考數據是增加數據可讀性、可維護性以及後續應用的重要數據。**例如,你看到“性別”的這個字段,很可能是1代表男性、2代表女性。在許多企業中有這樣的約定俗成,而更多的參考數據可能記錄在開發人員和運營人員的大腦當中。但問題是一旦這些人離開,您系統裏面的數據就成了一堆沒有註釋的天書。

大家可能覺得,這所謂參考數據不就是數據字典嗎?對,我們在很多系統裏面都會有這樣和那樣的數據字典。但是正是由於這些數據字典僅侷限於個別系統而沒有統一標準,從一個側面間接造就了大量的數據孤島。企業爲了進行更有效率的數據整合、數據共享和數據分析應用,開始嘗試對參考數據進行企業或者部門層面的整合和管理,利用參考數據集記錄系統嘗試爲範圍內的IT系統中的數據庫提供統一的參考數據。

小結

主數據則是真實的企業業務數據,是企業的關鍵業務數據。

參考數據則是對數據的解釋,針對一些數據範圍和取值的數據解釋,讓人們容易讀取相關的數據。

元數據是對數據的描述,用於描述企業數據的所有信息和數據,如結構、關係、安全需求等,除增加數據可讀性外,也是後續數據管理的基礎。

一般而言,企業中這三類數據與其它數據的數據量、質量需求,更新頻率、數據生命週期的關係大致如下圖:

img

中臺與元數據

中臺強調的是複用性,利用提高服務的重複使用,降低開發時間和提高工作效率。但現實生活中,大量的數據孤島和重複建設存在,從而存在大量的數據指標定義不同帶來的歧義問題。由於不同的項目 PM 管理風格迥異,存在有些必要信息沒有進行存檔,而是通過口口相傳的不靠譜形式,信息準確性大打折扣。

數據中臺建設中需要尋找共性數據,通過數據建模,將其進行抽取形成一張公共的數據大寬表。如何快速瞭解掌握數據關係,定位表與表之間的共性部分,往往需要對業務有一定的瞭解,但現實情況大量的開發人員只瞭解自己負責的那一個模塊內容,對於其他人或者項目的內容一無所知。

而元數據就是爲了消除二義性,同時,對元數據的管理,形成結構化的權威數據,降低數據傳遞成本和提高準確性。

常見元數據分類

  • 元數據包括業務元數據、技術元數據和管理元數據。
  • 常見的業務元數據包括:業務定義、業務術語、業務規則、業務指標等。
  • 常見的技術元數據包括:存儲位置、數據模型、數據庫表、字段長度、字段類型、ETL腳本、SQL腳本、接口程序、數據關係等。
  • 常見的管理元數據包括:數據所有者、數據質量定責、數據安全等級等。

業務問題

在沒有元數據管理的情況下,從使用問題、管理問題、數據問題等三個方面進行說明:

使用問題

  • 查看錶結構信息不方便(查看、檢索、表複用)
  • 表依賴關係不清楚(血緣)
  • 表信息缺少(表維護者,表狀態)

管理問題

  • 表權限管理
  • 數據管理
  • 數據質量監控

數據問題

  • 建表規則混亂,沒有統一標準
  • 表結構變更之後,信息不同步

如何設計元數據管理

image-20200205155153768

元數據管理工具

數據治理

數倉構建

名詞說明

業務板塊

定義數據倉庫的名稱和業務空間,以企業內一個相對獨立的業務爲分配單元。例如,如果業務涉及零售、文娛,且系統間相對獨立,則需要構建兩個業務板塊,即零售、文娛。如果業務僅涉及零售,且業務內的系統間隔離較少,則只需要構建一個業務板塊,即零售。

公共定義

定義企業構建數據所需的全局概念對象或參數,以保證全局概念統一。當定義完成後,系統內其他指標(例如派生指標)可以按需統一、通用化引用這些對象,例如統計週期,年、月、日、每週、每日。

項目管理

項目是一種物理空間上的劃分。項目管理,即用戶在數據中臺建設過程中,對物理資源及開發人員進行隔離化管理。一個業務板塊可以包含多個項目,每個系統成員可以加入多個不同的項目。

維度

維度即進行統計的對象。通常情況下,維度是實際存在、不因事件發生就存在的實體。創建維度,即從頂層規範業務中的實體(主數據),並保證實體的唯一性。例如訂單、商品。

業務過程

業務過程即業務活動中的所有事件(它是一個事件集合)。創建業務過程,即從頂層規範業務中事務內容的類型及唯一性。因此業務過程是一個不可拆分的行爲事件。例如下單、支付、退款都是業務過程。

指標

指標分爲原子指標和派生指標。
原子指標:對指標統計口徑(即計算邏輯)、具體算法的一個抽象,是業務定義中不可再拆分的指標,例如支付金額。一般都爲數值(統計)。原子指標=業務過程(動作)+度量,如支付(事件)金額(度量)。
派生指標:業務中常用的統計指標。派生指標=原子指標+業務限定+統計週期+統計粒度。例如,自然周、會員、採用優惠券支付的訂單。

統計粒度

統計的最小顆粒度,數據唯一性的保證,統計分析的對象或視角,定義數據需要彙總的程度,可以理解爲聚合運算時的分組條件(類似於SQL中group by的對象)。粒度是維度的一個組合,指明您的統計範圍。例如,某個指標是某個賣家在某個省份的成交額,則粒度就是賣家、省份這兩個維度的組合。

這裏需要注意粒度與維度的關係,通過一個或多個維度構建粒度。

流程

image-20200208132347029

  • 維度構建 DIM 維度模型。
  • 數據域與項目是相互獨立的不同統計指標,但同屬於同一個業務板塊下面。
  • 以源表和維表構建得到事實明細表。
  • 以原子指標、業務限定、統計週期、統計粒度構建得到派生指標,結合統計粒度構建 DWS 彙總表

image-20200208132129160

示例

image-20200208132137004

拓展閱讀

發佈了80 篇原創文章 · 獲贊 26 · 訪問量 27萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章