Spark定製班第28課:在集成開發環境中詳解Spark Streaming的運行日誌內幕

本期內容:
1. Spark Streaming日誌
2. Spark Streaming在IDE中的日誌分析 

WordCountLine
15秒鐘的時間間隔
日誌中ForeachDStream先打印。
SocketInputDStream storage level false,false,false,false,1
但StorageLevel:

rememberDuration也是15s。
在提交作業前,先構建DStreamGraph對象。
driver準備 就緒,receiver也沒問題了。75-93line 可以交給Core進行調度了。

75-83 executor的內容
92- 增加job 
94- core的內容
 
SS就是個大Saprk應用程序

154- 監聽器 要保證延遲時間一定要小於batchDuration
156- 作業完成後,刪除作業:清掉數據和元數據
下面又有作業產生
210- 刪除RDD
remove old  batch metadta             driver級別,是在下一個batch時刪除?
rememberDuration的設置略微複雜些,大體是 slideDuration,如果設置了checkpointDuration 則是2*checkpointDuration 或者通過DStreamGraph.rememberDuration(如果設置了的話,譬如通過StreamingContext.remember方法,不過通過該方法設置的值要大於計算得到的值會生效)
另外值得一提的就是後面的DStream 會調整前面的DStream的rememberDuration,譬如如果你用了window* 相關的操作,則在此之前的DStream 的rememberDuration 都需要加上windowDuration。

問題:
remove old  batch metadta             driver級別,是在下一個batch時刪除?
第一個Job出現沒有刪除RDD的信息,在第二個BatchDuration之前,
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章