大浪淘沙後 DataOps依舊

DataOps的定義

 

數據資產和數據產品的訪問需求在與日俱增,想在市場中獲得競爭力,DataOps是一門必不可少的學科。數據(和管理)團隊和他們的平臺無法跟上裝備了DevOps的團隊對他們提需求的節奏,這種狀態推動了(數據團隊的)DataOps發展。

簡而言之,DataOps將數據科學家、分析師、開發人員和運營人員凝聚在一起,共同致力於從設計階段到生產支持的整個產品/服務生命週期。

 

DataOps VS DevOps

 

 

DataOps並不僅僅是遵循DevOps原理並將其應用於數據分析。雖然這樣可以達到類似的提高質量和縮短週期的目的,但本質上並不是一回事。

DevOps依靠自動化來加快構建生命週期。目標是通過按需分配IT資源並通過自動化代碼集成、測試和部署來實現連續且持續的軟件集成與交付。

換句話說,DevOps使開發和運維團隊合作,併爲他們提供工具,使他們的工作能更好、更高效。產生的效果是減少了部署時間、更快地將產品交付市場、減少了代碼問題且縮短了解決問題所需的時間。

DevOps使頂級公司可以將發佈時間從幾個月縮短到幾分鐘,甚至在某些情況下只需幾秒鐘。這爲他們提供了難以置信的競爭優勢,而在當今快節奏的經濟中則顯得非常必要。

本質上,Amazon和Google這樣的公司每天能夠多次發佈軟件則要歸功於DevOps。沒有DevOps,這些都不可能實現。

DataOps的目標則是提高數據分析效率。爲此,DataOps採用敏捷開發原則,從而提高數據團隊和用戶的效率和效力。

這意味着數據團隊可以以較短週期的增量方式即Sprints,發佈新的分析數據,從而大大減少等待時間。研究還表明,這種敏捷開發方式,在軟件開發項目完成時,問題變得更少了。在數據領域中,這意味着公司可以更快地響應客戶需求和痛點,從而顯著提高交付價值的速度。

然而,與DevOps相比,DataOps還多一個不斷變化的附加組件:數據流水線。原始數據從數據流水線一側進入後進行處理,在另一側以不同的形式(報告,視圖,模型等)進行展示。該數據流水線通常被稱爲數據生產者/消費者模型。

在數據流中,DataOps扮演着至關重要的角色,因爲它指導、監控並管理數據流水線。統計過程控制(SPC:確保統計信息保持在可接受的範圍內,從而顯着提高數據分析的質量、效率和透明度)是用於實現此目的的功能更強大的工具之一。

DataOps結合了DevOps、敏捷開發和統計過程控制三者的優點。

 

DataOps之用途

 

 

數據有價值,且比以往任何時候都更有價值,許多公司也紛紛認識到這一點。數據本身可以成爲產品。但是,只有在公司有效收集、處理並將其轉化爲可行動洞見(actionable insights - 指可用於實際指導公司行爲的商業洞見)時,數據纔會真正體現其價值。

問題在於,如何有效的收集、分析數據,一般的公司對此並不清楚。基於“我們將廣泛收集數據,然後弄清楚該如何處理”的原則,公司通常採取這樣一種看似無所不包的方法,而這樣做弊大於利。

公司隨後組建一個數據團隊,想當然的認爲,這個團隊可以奇蹟般地將垃圾變成黃金。這樣做通常所需的工作量比實際需要多得多,且很難能達到預期效果。當然,這幾乎不可能按時提供可行動洞見,從而滿足DevOps團隊努力將其代碼推向市場的需求。

DataOps結束了這個混亂的局面,並將其變成一個平滑的過程,數據團隊也無需花費時間來解決這些問題。他們不用浪費時間,嘗試將不良原始數據變成有用的數據。相反,他們可以專注於重要的事情,即提供可行動洞見。

DataOps能確保輸入原始數據的可用性,保證結果的準確性,注重人員價值及共同合作的價值,使數據團隊始終處於公司戰略目標的中心。畢竟,他們再也不需要花費幾個月的時間出成果,而且與DevOps團隊一樣高效。

 

DataOps演進史

 

 

2014年6月,InformationWeek的特約編輯Lenny Liebmann首次在“ DataOps對大數據成功至關重要的三個原因”中介紹了DataOps。AndyPalmer隨後在Tamr推廣了這些術語。

DataOps在2017年經歷了重大發展。因此,隨着企業對該學科的興趣不斷增長,催生了強大的供應商網絡的發展,這些供應商提供各種相關產品和服務的開發和銷售。

任何DataOps平臺都依賴於五個基本功能組件,他們分別是:

  • 數據管道編排:DataOps需要基於圖形的指導性工作流,其中涉及與數據集成、數據訪問、可視化和建模相關的所有步驟;

  • 測試和生產質量:DataOps不僅測試和監控所有生產數據的質量,而且還測試部署階段中任何更改的代碼;

  • 自動化部署:DataOps不斷將從開發環境中獲取代碼和配置,遷移至生產環境;

  • 數據科學模型部署和沙箱管理:DataOps還負責創建可複製的開發環境,並將模型移入生產環境;

  • 其他需要支持的功能:代碼和artifact存儲、參數和安全密鑰存儲、分佈式計算、數據虛擬化、版本控制和測試數據管理。

爲滿足上述需求,2017年有大量產品和服務投入市場。該數字在2018年繼續大幅增長。

DataOps儘管得到推廣,但仍然是一個新概念,尚未實現廣泛應用。DataOps的廣泛應用,可能會受到可用的框架及解決方案的限制,同時也受限於缺乏應遵循的明確指導原則。

即便如此,這仍是一次市場革命的開始,因爲各家公司都嘗試對此概念進行各自的解釋。數據科學家和IT專家仍然難以確定應從何處開始以及如何定義成功指標。

 

論DataOps的安全性

 

一份對451 調研結果的報告顯示,DataOps可以加快全球企業的創新速度,而且還可以幫助他們解決嚴重的安全及合規性問題,因此他們紛紛轉向DataOps。實際上,有66%的受訪者表示,更高的安全性和更好的合規性,是他們採用DataOps的首要原因。

由於許多企業都經歷過數據泄露問題,他們比以前更重視數據安全。同時監管機構在數據隱私方面也面臨着更大的壓力。因此,公司轉向DataOps來開發和實施一致的數據治理策略,同時,允許數據在完全安全的同時快速流動。

隨着需要訪問數據的人數增加,68%的受訪者表示,保護同內部和外部用戶共享的數據非常重要。

新聞中大多數數據泄露,通常是由外部威脅造成的。然而,事實上,最主要的威脅往往來自內部用戶。雖然,不一定是有意而爲之,往往疏忽會導致嚴重的後果。這也歸因於組織沒有統一一致的安全策略以及實施這些策略的方法。

只要數據擁有正確的數據平臺,DataOps便可以提供確保數據安全所需的同類安全方法,而不管訪問者是誰,無論使用哪種技術,這種統一的方法都可以在組織的所有領域起作用。

 

DataOps宣言

 

支持DataOps的組織和人員發佈了一個宣言,該宣言包含十八條原則,總結了踐行DataOps的最佳實踐、理念、目標、使命和價值觀。

宣言將個人及個人間的相互行爲,置於流程和工具之上。他們專注於工作分析,而不是全面的文檔。他們提倡客戶協作,而不是專注於合同談判。他們提倡實驗、迭代和反饋,而不是花費大量時間進行前期設計。他們還認爲應該消除孤立的責任,倡導跨職能的運營所有權。

 

DataOps宣言細則如下

  1. 客戶至上,DataOps的最高優先事項是通過快速、持續交付有價值的洞見來滿意客戶。

  2. 將價值置於產生的洞見,這也是數據分析性能的實際指標。

  3. 擁抱變化,包括客戶需求的不斷變化,並與客戶面對面交談。

  4. Analytics(分析)涉及具有不同角色、技能、頭銜和偏愛工具的人員團隊。

  5. 與客戶及運營部門的協作,貫穿於整個項目的每個階段,每個時間節點。

  6. 自組織帶來最佳的見解、架構、算法、設計和需求。

  7. 專注於創建可持續和可擴展的團隊和流程,而不是英雄主義。

  8. 定期進行自我反省以提高運營績效。

  9. 分析團隊依靠各種工具來生成代碼和配置,並描述如何根據數據生成洞見。

  10. 貫穿於始末的數據、代碼、工具、環境和團隊的編排對於成功至關重要。

  11. 一切都必須進行版本控制,因爲需要可重複的結果。

  12. 通過提供一次性環境來最小化分析團隊成員的實驗成本。

  13. 簡單,也被稱爲儘可能少做無用的工作,對於成功和提高敏捷性至關重要。

  14. DataOps的基本概念是專注於在產生洞見方面不斷提高效率。

  15. 分析流水線的基礎是必須自動檢測數據、配置和代碼中的異常和安全問題。它還應提供持續的反饋,從而避免錯誤。

  16. 應不斷測量質量、性能和安全性措施以識別任何可能的變化。

  17. 避免重複以前所做的工作以提高效率。

  18. 最大限度地減少將客戶需求轉化爲洞見所需的時間與精力,並將這些洞見變現,發佈爲可複製的生產過程,最後實現洞見的產品化。

 

論DataOps之未來

 

儘管DataOps尚未得到廣泛應用,但其未來是顯而易見的:DataOps將會被大浪淘沙而得以留存並廣泛應用。與DevOps一樣,我們將看到相關團隊和職位的價值將不斷上升。

例如,在進行敏捷開發之前,發佈工程師的價值被大大低估了,尤其是與軟件開發人員相比。而現在,實施DevOps的公司則充分尊重發布工程師的價值。此外,衆所周知,DevOps工程師是軟件工程中收入最高的職位之一。DevOps工程師非常難招,即使他們沒有大學學位,只要他們擁有適當的知識和經驗,公司也願意聘用。這也正在成爲一個趨勢。

DataOps工程師的職位可能會發生類似的事情。員工不論頭銜,通過實施可靠的DataOps策略,數據分析師、數據工程師和數據科學家都可以得到更大的重視。然而,這可能需要一段時間才能實現。DataOps仍然是一個新概念,儘管圍繞它進行了很多討論,但仍存在一些侷限和限制,阻礙其廣泛應用。

當然,隨着DataOps越來越流行,這些侷限和限制會逐漸消失。在不久的將來,我們可能會看到更多有關可以成功實施的原則和準則的討論。正如DevOps在IT基礎架構的管理中扮演着至關重要的角色一樣,DataOps也在改變數據可用、共享和集成的方式。隨着每天收集和/或生產的數據越來越多,有效地管理數據成爲越來越多企業的必然選擇。

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章