Exactly Once:
1、能夠處理且只被處理一次
2、能夠輸出且只被輸入一次
數據會積累到一定的程度,纔會寫到磁盤或內存,所以在還沒積累到一定程度的時候,數據有可能丟失幾條.但是和Kafka結合就不會.
SparkContext:
1.獲取數據
2.產生作業
WAL 很少失敗,因爲是存在HDFS上的,HDFS天然具有副本機制
基於Spark Streaming 天然的會Task重試和Stage重試
Spark Streaming事物處理流程圖:
備註:
這是我的Spark版本定製班學習筆記
更多私密內容,請關注微信公衆號:DT_Spark
如果您對大數據Spark感興趣,可以免費聽由王家林老師每天晚上20:00開設的Spark永久免費公開課,地址YY房間號:68917580