Spark（十三）Spark Core 調優之Shuffle調優

文章目錄

一、概述

大多數Spark作業的性能主要就是消耗在了shuffle環節，因爲該環節包含了大量的磁盤IO、序列化、網絡數據傳輸等操作。因此，如果要讓作業的性能更上一層樓，就有必要對shuffle過程進行調優。

但是也必須提醒大家的是，影響一個Spark作業性能的因素，主要還是代碼開發、資源參數以及數據傾斜，shuffle調優只能在整個Spark的性能調優中佔到一小部分而已。因此大家務必把握住調優的基本原則，千萬不要捨本逐末。下面我們就給大家詳細講解shuffle的原理，以及相關參數的說明，同時給出各個參數的調優建議。

二、shuffle的定義

Spark的運行主要分爲2部分：

一部分是驅動程序，其核心是SparkContext；

另一部分是Worker節點上Task,它是運行實際任務的。程序運行的時候，Driver和Executor進程相互交互：運行什麼任務，即Driver會分配Task到Executor，Driver 跟 Executor 進行網絡傳輸; 任務數據從哪兒獲取，即Task要從 Driver 抓取其他上游的 Task 的數據結果，所以有這個過程中就不斷的產生網絡結果。其中，下一個 Stage 向上一個 Stage 要數據這個過程，我們就稱之爲 Shuffle。

三、ShuffleManager發展概述

在Spark的源碼中，負責shuffle過程的執行、計算和處理的組件主要就是ShuffleManager，也即shuffle管理器。而隨着Spark的版本的發展，ShuffleManager也在不斷迭代，變得越來越先進。

在Spark 1.2以前，默認的shuffle計算引擎是HashShuffleManager。該ShuffleManager而HashShuffleManager有着一個非常嚴重的弊端，就是會產生大量的中間磁盤文件，進而由大量的磁盤IO操作影響了性能。

因此在Spark 1.2以後的版本中，默認的ShuffleManager改成了SortShuffleManager。SortShuffleManager相較於HashShuffleManager來說，有了一定的改進。主要就在於，每個Task在進行shuffle操作時，雖然也會產生較多的臨時磁盤文件，但是最後會將所有的臨時文件合併（merge）成一個磁盤文件，因此每個Task就只有一個磁盤文件。在下一個stage的shuffle read task拉取自己的數據時，只要根據索引讀取每個磁盤文件中的部分數據即可。

下面我們詳細分析一下HashShuffleManager和SortShuffleManager的原理。

四、HashShuffleManager的運行原理

下面我們詳細分析一下HashShuffleManager和SortShuffleManager的原理。

4.1　未經優化的HashShuffleManager

圖解說明

文字說明

上圖說明了未經優化的HashShuffleManager的原理。這裏我們先明確一個假設前提：每個Executor只有1個CPU core，也就是說，無論這個Executor上分配多少個task線程，同一時間都只能執行一個task線程。

我們先從shuffle write開始說起。shuffle write階段，主要就是在一個stage結束計算之後，爲了下一個stage可以執行shuffle類的算子（比如reduceByKey），而將每個task處理的數據按key進行“分類”。所謂“分類”，就是對相同的key執行hash算法，從而將相同key都寫入同一個磁盤文件中，而每一個磁盤文件都只屬於下游stage的一個task。在將數據寫入磁盤之前，會先將數據寫入內存緩衝中，當內存緩衝填滿之後，纔會溢寫到磁盤文件中去。

那麼每個執行shuffle write的task，要爲下一個stage創建多少個磁盤文件呢？很簡單，下一個stage的task有多少個，當前stage的每個task就要創建多少份磁盤文件。比如下一個stage總共有100個task，那麼當前stage的每個task都要創建100份磁盤文件。如果當前stage有50個task，總共有10個Executor，每個Executor執行5個Task，那麼每個Executor上總共就要創建500個磁盤文件，所有Executor上會創建5000個磁盤文件。由此可見，未經優化的shuffle write操作所產生的磁盤文件的數量是極其驚人的。

接着我們來說說shuffle read。shuffle read，通常就是一個stage剛開始時要做的事情。此時該stage的每一個task就需要將上一個stage的計算結果中的所有相同key，從各個節點上通過網絡都拉取到自己所在的節點上，然後進行key的聚合或連接等操作。由於shuffle write的過程中，task給下游stage的每個task都創建了一個磁盤文件，因此shuffle read的過程中，每個task只要從上游stage的所有task所在節點上，拉取屬於自己的那一個磁盤文件即可。

shuffle read的拉取過程是一邊拉取一邊進行聚合的。每個shuffle read task都會有一個自己的buffer緩衝，每次都只能拉取與buffer緩衝相同大小的數據，然後通過內存中的一個Map進行聚合等操作。聚合完一批數據後，再拉取下一批數據，並放到buffer緩衝中進行聚合操作。以此類推，直到最後將所有數據到拉取完，並得到最終的結果。

4.2　優化後的HashShuffleManager

圖解說明

文字說明

上圖說明了優化後的HashShuffleManager的原理。這裏說的優化，是指我們可以設置一個參數，spark.shuffle.consolidateFiles。該參數默認值爲false，將其設置爲true即可開啓優化機制。通常來說，如果我們使用HashShuffleManager，那麼都建議開啓這個選項。

開啓consolidate機制之後，在shuffle write過程中，task就不是爲下游stage的每個task創建一個磁盤文件了。此時會出現shuffleFileGroup的概念，每個shuffleFileGroup會對應一批磁盤文件，磁盤文件的數量與下游stage的task數量是相同的。一個Executor上有多少個CPU core，就可以並行執行多少個task。而第一批並行執行的每個task都會創建一個shuffleFileGroup，並將數據寫入對應的磁盤文件內。

當Executor的CPU core執行完一批task，接着執行下一批task時，下一批task就會複用之前已有的shuffleFileGroup，包括其中的磁盤文件。也就是說，此時task會將數據寫入已有的磁盤文件中，而不會寫入新的磁盤文件中。因此，consolidate機制允許不同的task複用同一批磁盤文件，這樣就可以有效將多個task的磁盤文件進行一定程度上的合併，從而大幅度減少磁盤文件的數量，進而提升shuffle write的性能。

假設第二個stage有100個task，第一個stage有50個task，總共還是有10個Executor，每個Executor執行5個task。那麼原本使用未經優化的HashShuffleManager時，每個Executor會產生500個磁盤文件，所有Executor會產生5000個磁盤文件的。但是此時經過優化之後，每個Executor創建的磁盤文件的數量的計算公式爲：CPU core的數量 * 下一個stage的task數量。也就是說，每個Executor此時只會創建100個磁盤文件，所有Executor只會創建1000個磁盤文件。

五、SortShuffleManager運行原理

SortShuffleManager的運行機制主要分成兩種，一種是普通運行機制，另一種是bypass運行機制。當shuffle read task的數量小於等於spark.shuffle.sort.bypassMergeThreshold參數的值時（默認爲200），就會啓用bypass機制。

5.1　普通運行機制

圖解說明

文字說明

上圖說明了普通的SortShuffleManager的原理。在該模式下，數據會先寫入一個內存數據結構中，此時根據不同的shuffle算子，可能選用不同的數據結構。如果是reduceByKey這種聚合類的shuffle算子，那麼會選用Map數據結構，一邊通過Map進行聚合，一邊寫入內存；如果是join這種普通的shuffle算子，那麼會選用Array數據結構，直接寫入內存。接着，每寫一條數據進入內存數據結構之後，就會判斷一下，是否達到了某個臨界閾值。如果達到臨界閾值的話，那麼就會嘗試將內存數據結構中的數據溢寫到磁盤，然後清空內存數據結構。

在溢寫到磁盤文件之前，會先根據key對內存數據結構中已有的數據進行排序。排序過後，會分批將數據寫入磁盤文件。默認的batch數量是10000條，也就是說，排序好的數據，會以每批1萬條數據的形式分批寫入磁盤文件。寫入磁盤文件是通過Java的BufferedOutputStream實現的。BufferedOutputStream是Java的緩衝輸出流，首先會將數據緩衝在內存中，當內存緩衝滿溢之後再一次寫入磁盤文件中，這樣可以減少磁盤IO次數，提升性能。

一個task將所有數據寫入內存數據結構的過程中，會發生多次磁盤溢寫操作，也就會產生多個臨時文件。最後會將之前所有的臨時磁盤文件都進行合併，這就是merge過程，此時會將之前所有臨時磁盤文件中的數據讀取出來，然後依次寫入最終的磁盤文件之中。此外，由於一個task就只對應一個磁盤文件，也就意味着該task爲下游stage的task準備的數據都在這一個文件中，因此還會單獨寫一份索引文件，其中標識了下游各個task的數據在文件中的start offset與end offset。

SortShuffleManager由於有一個磁盤文件merge的過程，因此大大減少了文件數量。比如第一個stage有50個task，總共有10個Executor，每個Executor執行5個task，而第二個stage有100個task。由於每個task最終只有一個磁盤文件，因此此時每個Executor上只有5個磁盤文件，所有Executor只有50個磁盤文件。

5.2　bypass運行機制

圖解說明

文字說明

上圖說明了bypass SortShuffleManager的原理。bypass運行機制的觸發條件如下：

shuffle map task數量小於spark.shuffle.sort.bypassMergeThreshold參數的值。
不是聚合類的shuffle算子（比如reduceByKey）。

此時task會爲每個下游task都創建一個臨時磁盤文件，並將數據按key進行hash然後根據key的hash值，將key寫入對應的磁盤文件之中。當然，寫入磁盤文件時也是先寫入內存緩衝，緩衝寫滿之後再溢寫到磁盤文件的。最後，同樣會將所有臨時磁盤文件都合併成一個磁盤文件，並創建一個單獨的索引文件。

該過程的磁盤寫機制其實跟未經優化的HashShuffleManager是一模一樣的，因爲都要創建數量驚人的磁盤文件，只是在最後會做一個磁盤文件的合併而已。因此少量的最終磁盤文件，也讓該機制相對未經優化的HashShuffleManager來說，shuffle read的性能會更好。

而該機制與普通SortShuffleManager運行機制的不同在於：第一，磁盤寫機制不同；第二，不會進行排序。也就是說，啓用該機制的最大好處在於，shuffle write過程中，不需要進行數據的排序操作，也就節省掉了這部分的性能開銷。

六、shuffle相關參數調優

以下是Shffule過程中的一些主要參數，這裏詳細講解了各個參數的功能、默認值以及基於實踐經驗給出的調優建議。

Spark各個版本的參數默認值可能會有不同，具體使用請參考官方網站的說明：

（1）先選擇對應的Spark版本：http://spark.apache.org/documentation.html

（2）再查看對應的文檔說明

spark.shuffle.file.buffer

默認值：32k
參數說明：該參數用於設置shuffle write task的BufferedOutputStream的buffer緩衝大小。將數據寫到磁盤文件之前，會先寫入buffer緩衝中，待緩衝寫滿之後，纔會溢寫到磁盤。
調優建議：如果作業可用的內存資源較爲充足的話，可以適當增加這個參數的大小（比如64k），從而減少shuffle write過程中溢寫磁盤文件的次數，也就可以減少磁盤IO次數，進而提升性能。在實踐中發現，合理調節該參數，性能會有1%~5%的提升。

spark.reducer.maxSizeInFlight

默認值：48m
參數說明：該參數用於設置shuffle read task的buffer緩衝大小，而這個buffer緩衝決定了每次能夠拉取多少數據。
調優建議：如果作業可用的內存資源較爲充足的話，可以適當增加這個參數的大小（比如96m），從而減少拉取數據的次數，也就可以減少網絡傳輸的次數，進而提升性能。在實踐中發現，合理調節該參數，性能會有1%~5%的提升。

spark.shuffle.io.maxRetries

默認值：3
參數說明：shuffle read task從shuffle write task所在節點拉取屬於自己的數據時，如果因爲網絡異常導致拉取失敗，是會自動進行重試的。該參數就代表了可以重試的最大次數。如果在指定次數之內拉取還是沒有成功，就可能會導致作業執行失敗。
調優建議：對於那些包含了特別耗時的shuffle操作的作業，建議增加重試最大次數（比如60次），以避免由於JVM的full gc或者網絡不穩定等因素導致的數據拉取失敗。在實踐中發現，對於針對超大數據量（數十億~上百億）的shuffle過程，調節該參數可以大幅度提升穩定性。

spark.shuffle.io.retryWait

默認值：5s
參數說明：具體解釋同上，該參數代表了每次重試拉取數據的等待間隔，默認是5s。
調優建議：建議加大間隔時長（比如60s），以增加shuffle操作的穩定性。

spark.shuffle.sort.bypassMergeThreshold

默認值：200
參數說明：當ShuffleManager爲SortShuffleManager時，如果shuffle read task的數量小於這個閾值（默認是200），則shuffle write過程中不會進行排序操作，而是直接按照未經優化的HashShuffleManager的方式去寫數據，但是最後會將每個task產生的所有臨時磁盤文件都合併成一個文件，並會創建單獨的索引文件。
調優建議：當你使用SortShuffleManager時，如果的確不需要排序操作，那麼建議將這個參數調大一些，大於shuffle read task的數量。那麼此時就會自動啓用bypass機制，map-side就不會進行排序了，減少了排序的性能開銷。但是這種方式下，依然會產生大量的磁盤文件，因此shuffle write性能有待提高。

Spark（十三）Spark Core 調優之Shuffle調優

文章目錄

一、概述

二、shuffle的定義

三、ShuffleManager發展概述

四、HashShuffleManager的運行原理

4.1　未經優化的HashShuffleManager

4.2　優化後的HashShuffleManager

五、SortShuffleManager運行原理

5.1　普通運行機制

5.2　bypass運行機制

六、shuffle相關參數調優

spark.shuffle.file.buffer

spark.reducer.maxSizeInFlight

spark.shuffle.io.maxRetries

spark.shuffle.io.retryWait

spark.shuffle.sort.bypassMergeThreshold

一個月面試近20家大中小廠，在互聯網寒冬突破重圍，成功上岸！

數倉分層的意義價值及如何設計數據分層

Spark（十七）Spark Core 調優之資源調優JVM的GC垃圾收集器

Spark（十五）Spark Core 調優之Spark資源調優

Spark（十三）Spark Core 調優之Shuffle調優

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

Spark（十三）Spark Core 調優之Shuffle調優

文章目錄

一、概述

二、shuffle的定義

三、ShuffleManager發展概述

四、HashShuffleManager的運行原理

4.1 未經優化的HashShuffleManager

4.2 優化後的HashShuffleManager

五、SortShuffleManager運行原理

5.1 普通運行機制

5.2 bypass運行機制

六、shuffle相關參數調優

spark.shuffle.file.buffer

spark.reducer.maxSizeInFlight

spark.shuffle.io.maxRetries

spark.shuffle.io.retryWait

spark.shuffle.sort.bypassMergeThreshold

4.1　未經優化的HashShuffleManager

4.2　優化後的HashShuffleManager

5.1　普通運行機制

5.2　bypass運行機制