spark streaming與storm比較

在這裏插入圖片描述
Storm的計算模型:
針對每條記錄的流式實時計算框架,是一種比較純粹的實時計算框架,但是存在一個問題!
Storm由於每來一條數據都會處理下,所以吞吐量並不高。
爲什麼吞吐量不高?
因爲每條數據過來就直接處理,那麼每條數據的處理都存在開銷。也就是說,storm機器的很多計算資源都會消耗在大量的其他方面,比如數據的傳輸、校研,通信等等,所以吞吐量並不能說非常高!
Spark streaming流計算框架:
會把一個時間batch裏面過來的數據都收集起來,然後再一次性,作爲一個batch給Spark Streaming Application進行處理。
Spark streaming的計算模型是基於batch的,所以嚴格意義上來說,spark streaming不是純碎的實時計算框架,更多的是一種準實時計算框架。
所以,Spark streaming的吞吐量,遠遠高於Storm,因爲對每條數據處理的額外開銷少了。對一個batch,纔有數據傳輸、通信的開銷。
Storm支持在分佈式流式計算程序(Topology)在運行過程中,動態的調整並行度,從而動態提高併發處理能力,而spark Streaming是無法動態調整並行度的。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章