Spark性能優化-Shuffer調優

from:http://spark.apache.org/docs/1.6.2/configuration.html#shuffle-behavior

spark.shuffle.file.buffer

以下是Shffule過程中的一些主要參數,這裏詳細講解了各個參數的功能、默認值以及基於實踐經驗給出的調優建議。
默認值:32k
參數說明:該參數用於設置
shufflewrite taskBufferedOutputStreambuffer緩衝大小。將數據寫到磁盤文件之前,會先寫入buffer緩衝中,待緩衝寫滿之後,纔會溢寫到磁盤。
調優建議:
  
如果作業可用的內存資源較爲充足的話,可以適當增加這個參數的大小(比如64k),從而減少shuffle write過程中溢寫磁盤文件的次數,也就可以減少磁盤IO次數,進而提升性能。在實踐中發現,合理調節該參數,性能會有1%~5%的提升。

spark.reducer.maxSizeInFlight

默認值:48m
參數說明:
   該參數用於設置
shuffle read taskbuffer緩衝大小,而這個buffer緩衝決定了每次能夠拉取多少數據。
調優建議:
   如果作業可用的內存資源較爲充足的話,可以適當增加這個參數的大小(比如
96m),從而減少拉取數據的次數,也就可以減少網絡傳輸的次數,進而提升性能。在實踐中發現,合理調節該參數,性能會有1%~5%的提升。

spark.shuffle.io.maxRetries

默認值:3
參數說明:
  
shuffle read taskshufflewrite task所在節點拉取屬於自己的數據時,如果因爲網絡異常導致拉取失敗,是會自動進行重試的。該參數就代表了可以重試的最大次數。如果在指定次數之內拉取還是沒有成功,就可能會導致作業執行失敗

調優建議:
   對於那些包含了特別耗時的
shuffle操作的作業,建議增加重試最大次數(比如60次),以避免由於JVMfullgc或者網絡不穩定等因素導致

spark.shuffle.io.retryWait


默認值:5s
參數說明:
   具體解釋同上,該參數代表了每次重試拉取數據的等待間隔,默認是
5s
調優建議:
   建議加大間隔時長(比如
60s),以增加shuffle操作的穩定性。

spark.shuffle.memoryFraction

默認值:0.2
   
參數說明:該參數代表了Executor內存中,分配給shuffle read task進行聚合操作的內存比例,默認是20%
   調優建議:在資源參數調優中講解過這個參數。如果內存充足,而且很少使用持久化操作,建議調高這個比例,給
shuffle read的聚合操作更多內存,以避免由於內存不足導致聚合過程中頻繁讀寫磁盤。在實踐中發現,合理調節該參數可以將性能提升10%左右。

spark.shuffle.manager

默認值:sort
參數說明:
   該參數用於設置
ShuffleManager的類型。Spark 1.5以後,有三個可選項:hashsorttungsten-sortHashShuffleManagerSpark 1.2以前的默認選項,但是Spark 1.2以及之後的版本默認都是SortShuffleManager了。tungsten-sortsort類似,但是使用了tungsten計劃中的堆外內存管理機制,內存使用效率更高。
調優建議:
   由於
SortShuffleManager默認會對數據進行排序,因此如果你的業務邏輯中需要該排序機制的話,則使用默認的SortShuffleManager就可以;而如果你的業務邏輯不需要對數據進行排序,那麼建議參考後面的幾個參數調優,通過bypass機制或優化的HashShuffleManager來避免排序操作,同時提供較好的磁盤讀寫性能。這裏要注意的是,tungsten-sort要慎用,因爲之前發現了一些相應的bug

spark.shuffle.sort.bypassMergeThreshold

默認值:200
參數說明:
   當
ShuffleManagerSortShuffleManager時,如果shuffle read task的數量小於這個閾值(默認是200),則shuffle write過程中不會進行排序操作,而是直接按照未經優化的HashShuffleManager的方式去寫數據,但是最後會將每個task產生的所有臨時磁盤文件都合併成一個文件,並會創建單獨的索引文件。
調優建議:
   當你使用
SortShuffleManager時,如果的確不需要排序操作,那麼建議將這個參數調大一些,大於shuffle read task的數量。那麼此時就會自動啓用bypass機制,map-side就不會進行排序了,減少了排序的性能開銷。但是這種方式下,依然會產生大量的磁盤文件,因此shuffle write性能有待提高。

spark.shuffle.consolidateFiles

默認值:false
參數說明:
   如果使用
HashShuffleManager,該參數有效。如果設置爲true,那麼就會開啓consolidate機制,會大幅度合併shuffle write的輸出文件,對於shuffle read task數量特別多的情況下,這種方法可以極大地減少磁盤IO開銷,提升性能。
調優建議:
   如果的確不需要
SortShuffleManager的排序機制,那麼除了使用bypass機制,還可以嘗試將spark.shuffle.manager參數手動指定爲hash,使用HashShuffleManager,同時開啓consolidate機制。在實踐中嘗試過,發現其性能比開啓了bypass機制的SortShuffleManager要高出10%~30%




shuffle總結:

              spark.shuffle.file.buffer

                     ---->shuffle wirte的時候的buffer的大小,也就是bucket的默認大小:32k

                     在持久化不多的情況下,可以調大

              spark.reducer.maxSizeInFlight

                     ---->shuffle read的每次拉取shuffle write文件中的最大的數據體積:48M

                     ----做相應修改

              spark.shuffle.io.maxRetries

                     ---->shuffle read拉取shufflewrite結果的最大的次數:3次

              spark.shuffle.io.retryWait

                     ---->重新拉取數據的間隔等待時間

              spark.shuffle.memoryFraction

                     ---->executor分配給shuffle read聚合的內存區域比例:0.2

                     在持久化不多的情況下,可以調大,也就意味着要將spark.storage.memoryFraction調低(0.5)

              spark.shuffle.manager

                     指定我們進行shuffle操作的管理類:在1.5之後默認爲sort|hash

                     如果在shuffle過程中,不需要進行排序的話,可以將其指定爲hash,反之使用默認sort即可

              spark.shuffle.sort.bypassMergeThreshold:200

                     當在執行shuffle操作的時候,如果task的個數不足該參數(和spark.default.parallelism 200一樣)的時候,使用的

                     shuffleManager爲hash而不是sort,

                     所以如果在shuffle過程中如果不需要排序的話,另外一種方式就是調大改參數的值,就可以不用走sort了。

              spark.shuffle.consolidateFiles

                     如果在走的是hashshuffleWriter,那麼這是時候建議開啓consolidate機制,可以大大的降低shuffleblockFile的個數,

                     降低磁盤IO,提高程序的性能。

發佈了17 篇原創文章 · 獲贊 0 · 訪問量 8088
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章