Spark 3.0 終於支持 event logs 滾動了

背景

相信經常使用 Spark 的同學肯定知道 Spark 支持將作業的 event log 保存到持久化設備。默認這個功能是關閉的,不過我們可以通過 spark.eventLog.enabled 參數來啓用這個功能,並且通過 spark.eventLog.dir 參數來指定 event log 保存的地方,可以是本地目錄或者 HDFS 上的目錄,不過一般我們都會將它設置成 HDFS 上的一個目錄。

但是這個功能有個問題,就是這個 Spark Job 運行的過程中產生的所有 event log 都是寫到單個文件中,這就導致了 event log 文件的大小和這個 Spark Job 的並行度、複雜度以及運行的時間有很大關係。如果我們是運行 Spark Streaming 作業,這個問題特別明顯,我們經常看到某個 Spark Strea



發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章