數據驅動型項目的“殺手鐗”:活化元數據

活化元數據是什麼?

它爲何如此重要?

 

“在過去的幾年中,我們經常引用類似雪崩、海嘯等比喻來描述我們所經歷的數據增長趨勢,後來雖然我們逐漸不再引用這類的比喻,但數據增長的潛在問題卻依然真實存在。我們訪問的數據作爲機構的一部分,它的體量和複雜程度在以指數級增長。爲推動數字化轉型,數據管控的工作量也在迅速增加。

 

即便只考慮單一的類別屬性,不同的數據集也可能有多種數值。有些數據集包含的性別屬性可能有3種值,有些是5種,其他一些可能是10種。這時,我們就需要元數據來幫助我們解釋不同數據集之間的數據變化情況,並能夠將數據作爲一個整體來理解。數字化轉型進程中要求我們理解數據,並且創新、高效地去使用數據,而在此過程中,能幫助我們提升數據驅動型項目效率的關鍵組件就是活化元數據。”

 

 

活化元數據是架構完善的數據管理系統的關鍵基礎和語義層,它在數據項目的整個生命週期中提供了令人驚喜的效用。元數據提供了一種理解企業中所有可用信息的方式,如果將機器學習技術疊加和集成到元數據上,利用人類的知識來擴展元數據的內容,並激活元數據的能力,其價值將更加凸顯。它能夠實現更多數據管理過程的智能化和動態化。例如,元數據可以標識出丟失、錯誤或異常的數據,這有助於提升分析質量,以及對支撐報告的數據進行自動更正和補充完善,從而提高決策水平,同時,還能避免產生一些重大錯誤。

 

 

如何實現元數據效益的最大化

 

 

在複雜多變的數據環境下, 對於元數據的充分利用是非常必要而迫切的,爲了實現元數據基礎效益的最大化,首先需要挖掘四種主要類型的元數據:

● 技術

數據庫架構、映射及代碼、轉換、質量檢查

 

● 業務

術語表詞匯、治理流程、應用程序和業務語境

 

● 操作和基礎架構

運行時間統計信息、時間戳、數量指標、日誌信息、系統及位置信息

 

● 使用情況

用戶評級、註釋、訪問模式

 

緊接着,將這四類元數據合併到一個通用、共享的元數據層,該過程包括三個步驟:

01

收集

通過雲和企業本地部署從企業的所有數據系統中掃描元數據,包括數據庫和文件系統、集成工具和流程以及分析和數據科學工具,並且具有高保真度。

 

02

組織

使用詞彙表術語、概念、關係和流程記錄數據的業務視圖。利用此業務語境擴充收集的元數據。以評級、評論和認證的形式收集用戶意見,以幫助評估數據資產對其他用戶的有用性。

 

03

推斷

應用智能來獲取在收集的元數據中不明顯的關係,包括數據沿襲,數據相似性併爲不同類型的用戶排列最有用的數據集。

 

通過採集技術、業務、運營和使用情況方面的元數據,我們可以創建關於企業數據資產以及這些數據資產之間相互關係的知識圖譜。當您應用人工智能和機器學習技術,並將其與數據管理解決方案集成在一起時,元數據圖譜就被激活了。活化的元數據使用戶可以面向分析、數據科學、治理以及其它幾乎任何用途,方便、有效、自動地搭建、部署和運行數據管理應用。

 

 

 

如何獲取活化元數據

 

 

爲使企業能夠開發出安全、有效和簡練的數據應用程序,並充分利用目前企業可用的海量數據,活化元數據是不可或缺的。現在,就有一種很好的方式來獲取活化元數據,即創建企業數據目錄並確保將它集成到您的數據過程中。事實上,權威分析機構Gartner也建議:“有傾向性地去選擇數據集成工具供應商,這些供應商應能展示出清晰的路線圖,顯示元數據驅動的機器學習技術如何實現更好的業務成果或服務。”

 

以下爲活化元數據所能給企業提供的便利:

● 識別出適用於特定業務用途的合適數據

● 基於學習到的模式以及根據外部變化所做的調整,自動實現系統集成

● 爲數據提供業務上下文語境,用於增強對分析方法的信心

● 查找客戶、產品、供應商等主數據模型的屬性所在位置,並進行補充完善

● 利用文檔形式記錄並識別數據,以推動協同化數據治理及合規性處理

● 突出標示數據質量、數據隱私問題以及數據對治理條例的符合程度

● 減少數據集成管道的開發和維護工作量

● 利用數據關係,爲豐富數據科學模型確定新的功能特性

● 通過向用戶提供合適的數據語境,使自助服務成爲可能

 

數據被視爲企業的“流通資產”,它可以推動所有數字化轉型活動,尤其是數據驅動型項目的發展。而通過建立一個智能元數據層,即可針對快速增長的數據,構建、推斷、補充完善和提供深入見解,同時還能最大程度地利用數據並實現數據最大價值,進而加速推動企業數字化轉型。

發佈了101 篇原創文章 · 獲贊 9 · 訪問量 1萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章