大數據爭論:批處理與流處理的C位之戰

  數據無疑是當今數字經濟中的新貨幣,但要跟上企業數據變化和遞增的業務信息需求,仍然是非常艱難。這也就解釋了公司將數據從傳統基礎構架中遷移至雲中,以衡量數據驅動決策的原因。這可確保公司寶貴資源——數據——受到監管,值得信任,方便管理和訪問。

  雖然企業也認可:基於雲的技術是確保跨企業間的數據管理、數據安全、隱私和流程合規性的關鍵,但關於如何更快地處理數據仍然存在一個有趣的爭論。那就是批處理與流處理之間的PK。

  每種處理方法都有其優缺點,但如何選擇還是依據具體的業務需求。下面會深入探討哪些用例需要使用批處理,又有哪些用例需要使用流處理。

  批處理和流處理之間有什麼區別?

  批次是在特定時間間隔內組合在一起的數據點集合。通常用於此的另一個術語是數據窗口。流處理,用於處理連續數據,是將大數據轉換爲快速數據的關鍵。這兩種模型都很有價值,每種模型都可用於解決不同的用例。他們甚至可以“融合”,可以在數據流中做數據窗口,也就是微批量。

  雖然批處理模型需要時間段內收集的一組數據,但流處理需要將數據送入分析工具中,通常以實時微批量方式送入。處理來自傳統架構的大量數據或數據源時經常使用批處理,而在流中直接處理數據是不可行的。根據定義,批處理數據還需要將批處理需要的所有數據加載成某種類型的存儲、數據庫或文件系統,然後才進行處理。有時,在開始分析階段之前,IT團隊可能會無所事事地等待,直至所有數據加載完成。

  大數據爭論:批處理與流處理的C位之戰

  流處理也可以用於處理大量數據,但是當您不需要實時分析時,批處理工作效果最佳。由於流處理負責處理運動中的數據並快速提供分析結果,因此它可以用Apache Spark和Apache Beam等平臺生成近乎即時的結果。

  大數據爭論:批處理與流處理的C位之戰

  例如,Talend最近發佈的Talend Data Streams是一款免費的亞馬遜市場應用程序,由Apache Beam提供支持,可簡化並加速大量數據,攝取各種實時數據。

  批處理一定比流處理好嗎?

  無論您喜歡批處理還是支持流處理,兩者“融合“時會更好。雖然流處理最適合時間很重要的用例,批處理在收集所有數據時運行良好,但這不代表哪一個比另一個好-這實際上取決於您的業務目標。

  然而,我們看到試圖利用流處理的公司發生了重大轉變。最近對超過16,000名數據專員的調查顯示,數據科學麪臨的最常見挑戰包括髒數據、整體訪問、或數據可用性等各方面。不幸的是,由於數據處於運動狀態,流式傳輸往往會加劇這些挑戰。在“跳槽”至實時的流處理之前,解決這些可訪問性和數據質量問題是關鍵。

  大數據爭論:批處理與流處理的C位之戰

  當我們與企業討論他們如何收集數據並加速創新時,他們通常回答說:“想要實時的數據”,我們再問:“實時對您意味着什麼?”

  商業用例可能會有所不同,但實時取決於事件創建或數據創建相對於處理時間的比例,可能是每小時,每五分鐘或每毫秒。

  公司爲何將數據批處理轉換爲數據流處理?下面我打一個比方。想象一下,你剛剛從你最喜歡的啤酒廠訂購了一批啤酒,客人已準備好喝酒了。但在你能喝酒之前,你必須根據啤酒花的味道對啤酒進行評分,並編輯在線評論對每種啤酒進行評分。如果你知道每換一種啤酒喝就要完成相同的、重複的過程,那麼從一種啤酒到另一種啤酒需要相當長的時間。對於一個企業來說,啤酒相當於管道數據。不是等到你所有的數據後進行處理,而是你可以在幾秒或幾毫秒內微批量處理它(這意味着你可以更快地喝啤酒!)。

  爲什麼選流處理?

  如果你長時間沒使用過流處理,你可能會問:“爲什麼我們不能像以前一樣批處理?”你當然可以,但如果你有大量的數據,何時需要提取數據很簡單,但何時需要使用它很難。

  公司將實時數據視爲遊戲規則改變者。但如果沒有適當的工具,實現這一目標仍然是一個挑戰,特別是因爲企業需要處理遞增的數量、種類和數據類型,它們來自衆多不同數據系統(如社交媒體)的。在Talend,我們看到企業通常希望擁有更靈活的數據處理,以便他們能夠加速創新,並更快地應對競爭威脅。

  例如,來自風力渦輪機上的傳感器始終開啓着。因此,數據流不間斷地流動。由於沒有數據的啓動或停止,因此典型攝取或處理此數據的批處理方法已過時。這是一個使用流處理的完美用例。

  大數據爭論

  很明顯,企業正在將實時分析/流處理的優先級轉移到實時收集可操作的信息。雖然過時的工具無法應對分析數據所涉及的速度或規模,但今天的數據庫和流處理應用程序已經準備好應對當今的業務問題。

  以下是大數據爭論中的重要內容:僅僅因爲你有錘子並不意味着這是工作的正確工具。批處理和流處理是兩種不同的模型,它不是二選一的遊戲,它是關於如何確定哪一種更適合您的用例的判斷。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章