DataOps三原則,數據平臺運營必讀!

作者:Ronen Schwartz

Informatica全球技術與生態戰略執行副總裁

 

一個越來越清楚的事實是:數據驅動型企業都在努力維護和管理數據,以獲得戰略優勢。雖然存在大量的可用數據,但我們仍然不能爲舊有數據提供經濟有效的數據質量診斷服務,太多企業無法提供卓越的多渠道客戶體驗,無法保證其數據已經妥善治理和安全防護,也無法保證這些數據符合世界上各種行業標準和數據保密法規的要求。

 

在數據驅動方面,這些企業爲什麼不採取更多的突破措施呢?原因之一就是他們根本不清楚如何在企業中運營數據平臺。

 

DataOps:在大規模擴展的同時不犧牲速度和質量

 

我和很多數據負責人交流過,他們都希望提升數據的質量,並利用這些數據更快地提供更好地洞察力。他們很清楚,應在不犧牲速度和質量的前提下擴大數據項目的覆蓋範疇。

 

但具體應該怎麼做呢?答案就在於一種被稱之爲DataOps(數據運營,可以理解爲數據的DevOps)的新運營方式。DataOps通過將DevOps的理念延伸到數據世界,提供了一種數據平臺的運營方式。DataOps也是數據系統性思維的支柱之一,具體可參見我們CEO Amit Walia 的文章《數據的系統性思維爲什麼如此重要》。

 

DevOps建立在三大主要原則之上:持續集成、持續交付和持續部署。如何將這些應用軟件的原則延伸到數據管道和數據驅動型應用方面呢?下面,就讓我們針對每一項原則做一些更爲細緻的探討。

 

持續集成:數據的發現、集成和準備

 

這一過程涉及數據工程師如何通過某種可持續的自動化方式對新的數據源和數據管道進行集成、準備、清洗、管控和發佈。當數據科學家、數據分析人員和數據專員合作使用由人工智能/機器學習技術驅動的數據目錄和數據準備工具,進行數據的自動發現和自動編排,提高搜索的便捷性,推薦數據轉換方式,以及自動設定數據和數據管道的規格參數時,數據工程師們就可以立刻開始工作了。利用流媒體和變更數據捕獲(CDC)技術,數據工程師能將數據管道轉換成實時流,並將其用於類似實時客戶互動所用到的預測分析算法。

 

數據工程師利用由元數據驅動的開發工具,將原有的數據管道作爲新的、更快的處理框架,當作新興技術一樣使用,使其永不過時,特別是在雲端。而且,諸如智能結構發現和動態模板這樣的由人工智能驅動的功能,可以在數據源發生變化時保護您的數據管道。這意味着您可以在任何地方運行您所獲取的管道,無論是在本地還是在雲計算環境。

 

持續交付:在整個企業範圍內提供可信數據

 

這一階段涉及的是在整個企業範圍內實施數據治理,讓您所有的數據消費應用都能使用高質量的數據。數據治理解放了您的數據,實現了數據的大衆化,從而確保了在整個企業範圍內交付的數據都是可信、安全和受保護的,並滿足合規性要求。在這一階段,數據編排一直在持續進行。在所有利益相關者(例如,數據工程師、數據科學家和分析人員、數據管理專員、數據治理專員、InfoSec分析師等)中,數據是以協同化方式交付的。

 

例如,如果數據科學家能夠很方便地找到他們認爲可信的數據,他們就可以通過設計和驗證相應的預測分析模型進行快速迭代。在開發、測試和人工智能模型的訓練過程中,應確保按照數據治理策略來應用數據質量規則和數據脫敏功能,這一點非常關鍵。只有這樣做,分析算法和機器學習模型才能交付積極的業務成果。當數據在整個企業範圍內移動時,應通過一個統一的、智能的數據平臺將數據治理、數據編目、數據質量及數據保密工作整合在一起,只有這樣才能確保所有數據都是可信的和受保護的。

 

人工智能/機器學習技術增強了人類的認知和協同能力,有助於在整個企業實施數據治理。針對受治理的數據,人工智能/機器學習技術可以將業務術語自動映射到實際數據集和具體策略之中。在不久的將來,人工智能/機器學習技術將可利用相應的法規進行數據解析,並自動生成數據治理策略,以進一步降低合規風險。

 

持續部署:使用戶都能用上最新的數據

 

在這一階段,您可以爲業務部門的自助服務賦能,並使企業內的各類用戶都能用上可信的數據。通過這種實踐,貫穿數據管道開發過程所有階段的每一個變化,都會被分發給分析人員和業務用戶所使用的各種數據消費應用。對許多業務工作來說,數據驅動型應用已變得十分重要,這些業務工作包括:客戶服務、營銷、電子商務、欺詐檢測、供應鏈管理等。這些都意味着,業務專家可以更快地訪問到最新的數據。要做到這一點,最好的方式就是採用水平擴展和基於微服務的架構。爲實現敏捷性和靈活性,這種架構通常部署在雲端。正是憑藉人工智能和機器學習技術在數據管道監測和管理方面發揮的作用,數據管道才能持續運行,且其性能和容量利用率才能得到不斷優化。

 

DataOps和系統思維

 

正如我在前文提到的,DataOps是數據系統性思維的支柱之一。如今,數據已成爲數字化轉型的強勁推動力。數據驅動型組織憑藉系統性思維方法及以下手段應對他們所面臨的挑戰:

 

1.統一的混合型智能數據平臺

2.通過DataOps理念開展平臺運營

3.利用AI實現作業自動化並增強人類的知識

4.利用元數據獲得發現數據和理解數據的能力

5.利用數據治理來確保對敏感數據的合理使用和安全保護

 

關於機構如何應對自身面臨的數據挑戰,我有兩點建議:

▶ 在技術方面,採用由人工智能驅動的統一智能數據平臺。

▶ 在數據平臺的運營中,遵循系統思維方法以及DataOps三大原則。

 

這不是一朝一夕就能完成的任務,而是一段戰略旅程。不過,如果能釋放數據的力量,您將獲得巨大的回報。

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章