Spark性能優化-Shuffer調優

from：http://spark.apache.org/docs/1.6.2/configuration.html#shuffle-behavior

spark.shuffle.file.buffer

以下是Shffule過程中的一些主要參數，這裏詳細講解了各個參數的功能、默認值以及基於實踐經驗給出的調優建議。
默認值：32k
參數說明：該參數用於設置shufflewrite task的BufferedOutputStream的buffer緩衝大小。將數據寫到磁盤文件之前，會先寫入buffer緩衝中，待緩衝寫滿之後，纔會溢寫到磁盤。
調優建議：
如果作業可用的內存資源較爲充足的話，可以適當增加這個參數的大小（比如64k），從而減少shuffle write過程中溢寫磁盤文件的次數，也就可以減少磁盤IO次數，進而提升性能。在實踐中發現，合理調節該參數，性能會有1%~5%的提升。

spark.reducer.maxSizeInFlight

默認值：48m
參數說明：
該參數用於設置shuffle read task的buffer緩衝大小，而這個buffer緩衝決定了每次能夠拉取多少數據。
調優建議：
如果作業可用的內存資源較爲充足的話，可以適當增加這個參數的大小（比如96m），從而減少拉取數據的次數，也就可以減少網絡傳輸的次數，進而提升性能。在實踐中發現，合理調節該參數，性能會有1%~5%的提升。

spark.shuffle.io.maxRetries

默認值：3
參數說明：
shuffle read task從shufflewrite task所在節點拉取屬於自己的數據時，如果因爲網絡異常導致拉取失敗，是會自動進行重試的。該參數就代表了可以重試的最大次數。如果在指定次數之內拉取還是沒有成功，就可能會導致作業執行失敗。

調優建議：
對於那些包含了特別耗時的shuffle操作的作業，建議增加重試最大次數（比如60次），以避免由於JVM的fullgc或者網絡不穩定等因素導致

spark.shuffle.io.retryWait

默認值：5s
參數說明：
具體解釋同上，該參數代表了每次重試拉取數據的等待間隔，默認是5s。
調優建議：
建議加大間隔時長（比如60s），以增加shuffle操作的穩定性。

spark.shuffle.memoryFraction

默認值：0.2
參數說明：該參數代表了Executor內存中，分配給shuffle read task進行聚合操作的內存比例，默認是20%。
調優建議：在資源參數調優中講解過這個參數。如果內存充足，而且很少使用持久化操作，建議調高這個比例，給shuffle read的聚合操作更多內存，以避免由於內存不足導致聚合過程中頻繁讀寫磁盤。在實踐中發現，合理調節該參數可以將性能提升10%左右。

spark.shuffle.manager

默認值：sort
參數說明：
該參數用於設置ShuffleManager的類型。Spark 1.5以後，有三個可選項：hash、sort和tungsten-sort。HashShuffleManager是Spark 1.2以前的默認選項，但是Spark 1.2以及之後的版本默認都是SortShuffleManager了。tungsten-sort與sort類似，但是使用了tungsten計劃中的堆外內存管理機制，內存使用效率更高。
調優建議：
由於SortShuffleManager默認會對數據進行排序，因此如果你的業務邏輯中需要該排序機制的話，則使用默認的SortShuffleManager就可以；而如果你的業務邏輯不需要對數據進行排序，那麼建議參考後面的幾個參數調優，通過bypass機制或優化的HashShuffleManager來避免排序操作，同時提供較好的磁盤讀寫性能。這裏要注意的是，tungsten-sort要慎用，因爲之前發現了一些相應的bug。

spark.shuffle.sort.bypassMergeThreshold

默認值：200
參數說明：
當ShuffleManager爲SortShuffleManager時，如果shuffle read task的數量小於這個閾值（默認是200），則shuffle write過程中不會進行排序操作，而是直接按照未經優化的HashShuffleManager的方式去寫數據，但是最後會將每個task產生的所有臨時磁盤文件都合併成一個文件，並會創建單獨的索引文件。
調優建議：
當你使用SortShuffleManager時，如果的確不需要排序操作，那麼建議將這個參數調大一些，大於shuffle read task的數量。那麼此時就會自動啓用bypass機制，map-side就不會進行排序了，減少了排序的性能開銷。但是這種方式下，依然會產生大量的磁盤文件，因此shuffle write性能有待提高。

spark.shuffle.consolidateFiles

默認值：false
參數說明：
如果使用HashShuffleManager，該參數有效。如果設置爲true，那麼就會開啓consolidate機制，會大幅度合併shuffle write的輸出文件，對於shuffle read task數量特別多的情況下，這種方法可以極大地減少磁盤IO開銷，提升性能。
調優建議：
如果的確不需要SortShuffleManager的排序機制，那麼除了使用bypass機制，還可以嘗試將spark.shuffle.manager參數手動指定爲hash，使用HashShuffleManager，同時開啓consolidate機制。在實踐中嘗試過，發現其性能比開啓了bypass機制的SortShuffleManager要高出10%~30%。

shuffle總結：

spark.shuffle.file.buffer

---->shuffle wirte的時候的buffer的大小，也就是bucket的默認大小：32k

在持久化不多的情況下，可以調大

spark.reducer.maxSizeInFlight

---->shuffle read的每次拉取shuffle write文件中的最大的數據體積：48M

----做相應修改

spark.shuffle.io.maxRetries

---->shuffle read拉取shufflewrite結果的最大的次數：3次

spark.shuffle.io.retryWait

---->重新拉取數據的間隔等待時間

spark.shuffle.memoryFraction

---->executor分配給shuffle read聚合的內存區域比例：0.2

在持久化不多的情況下，可以調大，也就意味着要將spark.storage.memoryFraction調低（0.5）

spark.shuffle.manager

指定我們進行shuffle操作的管理類：在1.5之後默認爲sort|hash

如果在shuffle過程中，不需要進行排序的話，可以將其指定爲hash，反之使用默認sort即可

spark.shuffle.sort.bypassMergeThreshold：200

當在執行shuffle操作的時候，如果task的個數不足該參數（和spark.default.parallelism 200一樣）的時候，使用的

shuffleManager爲hash而不是sort，

所以如果在shuffle過程中如果不需要排序的話，另外一種方式就是調大改參數的值，就可以不用走sort了。

spark.shuffle.consolidateFiles

如果在走的是hashshuffleWriter，那麼這是時候建議開啓consolidate機制，可以大大的降低shuffleblockFile的個數，

降低磁盤IO，提高程序的性能。

青於藍勝於藍

發佈了17 篇原創文章 · 獲贊 0 · 訪問量 8088

私信關注

Spark性能優化-Shuffer調優

釘釘打卡速度慢

Nginx R31 doc 官方文檔-01-nginx 如何安裝

Qt/C++音視頻開發74-合併標籤圖形/生成yolo運算結果圖形/文字和圖形合併成一個/水印濾鏡

挑戰程序設計競賽 2.2章習題 POJ - 3617 Best Cow Line 貪心

字節面試：MySQL什麼時候鎖表？如何防止鎖表？

.NET8連接SQL SERVER 2008 R2 報：證書鏈是由不受信任的頒發機構頒發的

golang開發環境搭建(win10)

python計算機視覺學習筆記——PIL庫的用法

Golang初學：獲取程序內存使用情況，std runtime

Spark SQL 1.6.2官方文檔中文版

Java中的四種引用方式及其區別

Spark性能優化-Shuffer調優

Linux下時間不同步解決

Spark性能優化：資源調優篇

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結