Spark（十五）Spark Core 調優之Spark資源調優

文章目錄

一、概述

在開發完Spark作業之後，就該爲作業配置合適的資源了。Spark的資源參數，基本都可以在 spark-submit 命令中作爲參數設置。很多Spark初學者，通常不知道該設置哪些必要的參數，以及如何設置這些參數，最後就只能胡亂設置，甚至壓根兒不設置。資源參數設置的不合理，可能會導致沒有充分利用集羣資源，作業運行會極其緩慢；或者設置的資源過大，隊列沒有足夠的資源來提供，進而導致各種異常。總之，無論是哪種情況，都會導致Spark作業的運行效率低下，甚至根本無法運行。因此我們必須對Spark作業的資源使用原理有一個清晰的認識，並知道在Spark作業運行過程中，有哪些資源參數是可以設置的，以及如何設置合適的參數值。

二、Spark作業基本運行原理

詳細原理見上圖。我們使用spark-submit提交一個Spark作業之後，這個作業就會啓動一個對應的Driver進程。根據你使用的部署模式（deploy-mode）不同，Driver進程可能在本地啓動，也可能在集羣中某個工作節點上啓動。Driver進程本身會根據我們設置的參數，佔有一定數量的內存和CPU core。而Driver進程要做的第一件事情，就是向集羣管理器（可以是Spark Standalone集羣，也可以是其他的資源管理集羣，美團•大衆點評使用的是YARN作爲資源管理集羣）申請運行Spark作業需要使用的資源，這裏的資源指的就是Executor進程。YARN集羣管理器會根據我們爲Spark作業設置的資源參數，在各個工作節點上，啓動一定數量的Executor進程，每個Executor進程都佔有一定數量的內存和CPU core。

在申請到了作業執行所需的資源之後，Driver進程就會開始調度和執行我們編寫的作業代碼了。Driver進程會將我們編寫的Spark作業代碼分拆爲多個stage，每個stage執行一部分代碼片段，併爲每個stage創建一批task，然後將這些task分配到各個Executor進程中執行。task是最小的計算單元，負責執行一模一樣的計算邏輯（也就是我們自己編寫的某個代碼片段），只是每個task處理的數據不同而已。一個stage的所有task都執行完畢之後，會在各個節點本地的磁盤文件中寫入計算中間結果，然後Driver就會調度運行下一個stage。下一個stage的task的輸入數據就是上一個stage輸出的中間結果。如此循環往復，直到將我們自己編寫的代碼邏輯全部執行完，並且計算完所有的數據，得到我們想要的結果爲止。

Spark是根據shuffle類算子來進行stage的劃分。如果我們的代碼中執行了某個shuffle類算子（比如reduceByKey、join等），那麼就會在該算子處，劃分出一個stage界限來。可以大致理解爲，shuffle算子執行之前的代碼會被劃分爲一個stage，shuffle算子執行以及之後的代碼會被劃分爲下一個stage。因此一個stage剛開始執行的時候，它的每個task可能都會從上一個stage的task所在的節點，去通過網絡傳輸拉取需要自己處理的所有key，然後對拉取到的所有相同的key使用我們自己編寫的算子函數執行聚合操作（比如reduceByKey()算子接收的函數）。這個過程就是shuffle。

當我們在代碼中執行了cache/persist等持久化操作時，根據我們選擇的持久化級別的不同，每個task計算出來的數據也會保存到Executor進程的內存或者所在節點的磁盤文件中。

因此Executor的內存主要分爲三塊：第一塊是讓task執行我們自己編寫的代碼時使用，默認是佔Executor總內存的20%；第二塊是讓task通過shuffle過程拉取了上一個stage的task的輸出後，進行聚合等操作時使用，默認也是佔Executor總內存的20%；第三塊是讓RDD持久化時使用，默認佔Executor總內存的60%。

task的執行速度是跟每個Executor進程的CPU core數量有直接關係的。一個CPU core同一時間只能執行一個線程。而每個Executor進程上分配到的多個task，都是以每個task一條線程的方式，多線程併發運行的。如果CPU core數量比較充足，而且分配到的task數量比較合理，那麼通常來說，可以比較快速和高效地執行完這些task線程。

以上就是Spark作業的基本運行原理的說明，大家可以結合上圖來理解。理解作業基本原理，是我們進行資源參數調優的基本前提。

三、資源參數調優

瞭解完了Spark作業運行的基本原理之後，對資源相關的參數就容易理解了。所謂的Spark資源參數調優，其實主要就是對Spark運行過程中各個使用資源的地方，通過調節各種參數，來優化資源使用的效率，從而提升Spark作業的執行性能。以下參數就是Spark中主要的資源參數，每個參數都對應着作業運行原理中的某個部分，我們同時也給出了一個調優的參考值。

3.1　num-executors

參數說明：該參數用於設置Spark作業總共要用多少個Executor進程來執行。Driver在向YARN集羣管理器申請資源時，YARN集羣管理器會儘可能按照你的設置來在集羣的各個工作節點上，啓動相應數量的Executor進程。這個參數非常之重要，如果不設置的話，默認只會給你啓動少量的Executor進程，此時你的Spark作業的運行速度是非常慢的。
參數調優建議：每個Spark作業的運行一般設置50~100個左右的Executor進程比較合適，設置太少或太多的Executor進程都不好。設置的太少，無法充分利用集羣資源；設置的太多的話，大部分隊列可能無法給予充分的資源。

3.2　executor-memory

參數說明：該參數用於設置每個Executor進程的內存。Executor內存的大小，很多時候直接決定了Spark作業的性能，而且跟常見的JVM OOM異常，也有直接的關聯。
參數調優建議：每個Executor進程的內存設置4G ~ 8G較爲合適。但是這只是一個參考值，具體的設置還是得根據不同部門的資源隊列來定。可以看看自己團隊的資源隊列的最大內存限制是多少，num-executors乘以executor-memory，是不能超過隊列的最大內存量的。此外，如果你是跟團隊裏其他人共享這個資源隊列，那麼申請的內存量最好不要超過資源隊列最大總內存的1/3~1/2，避免你自己的Spark作業佔用了隊列所有的資源，導致別的同學的作業無法運行。

3.3　executor-cores

參數說明：該參數用於設置每個Executor進程的CPU core數量。這個參數決定了每個Executor進程並行執行task線程的能力。因爲每個CPU core同一時間只能執行一個task線程，因此每個Executor進程的CPU core數量越多，越能夠快速地執行完分配給自己的所有task線程。
參數調優建議：Executor的CPU core數量設置爲2 ~ 4個較爲合適。同樣得根據不同部門的資源隊列來定，可以看看自己的資源隊列的最大CPU core限制是多少，再依據設置的Executor數量，來決定每個Executor進程可以分配到幾個CPU core。同樣建議，如果是跟他人共享這個隊列，那麼num-executors * executor-cores不要超過隊列總CPU core的1/3~1/2左右比較合適，也是避免影響其他同學的作業運行。最好的應該就是一個cpu core對應兩到三個task。

3.4　driver-memory

參數說明：該參數用於設置Driver進程的內存。
參數調優建議：Driver的內存通常來說不設置，或者設置1G左右應該就夠了。唯一需要注意的一點是，如果需要使用collect算子將RDD的數據全部拉取到Driver上進行處理，那麼必須確保Driver的內存足夠大，否則會出現OOM內存溢出的問題。

3.5　spark.default.parallelism

參數說明：該參數用於設置每個stage的默認task數量。這個參數極爲重要，如果不設置可能會直接影響你的Spark作業性能。一個分區對應一個task，也就是這個參數其實就是設置task的數量
參數調優建議：Spark作業的默認task數量爲500 ~ 1000個較爲合適。很多同學常犯的一個錯誤就是不去設置這個參數，那麼此時就會導致Spark自己根據底層HDFS的block數量來設置task的數量，默認是一個HDFS block對應一個task。通常來說，Spark默認設置的數量是偏少的（比如就幾十個task），如果task數量偏少的話，就會導致你前面設置好的Executor的參數都前功盡棄。試想一下，無論你的Executor進程有多少個，內存和CPU有多大，但是task只有1個或者10個，那麼90%的Executor進程可能根本就沒有task執行，也就是白白浪費了資源！因此Spark官網建議的設置原則是，設置該參數爲num-executors * executor-cores的2~3倍較爲合適，比如Executor的總CPU core數量爲300個，那麼設置1000個task是可以的，此時可以充分地利用Spark集羣的資源。

3.6　spark.storage.memoryFraction

參數說明：該參數用於設置RDD持久化數據在Executor內存中能佔的比例，默認是0.6。也就是說，默認Executor 60%的內存，可以用來保存持久化的RDD數據。根據你選擇的不同的持久化策略，如果內存不夠時，可能數據就不會持久化，或者數據會寫入磁盤。
參數調優建議：如果Spark作業中，有較多的RDD持久化操作，該參數的值可以適當提高一些，保證持久化的數據能夠容納在內存中。避免內存不夠緩存所有的數據，導致數據只能寫入磁盤中，降低了性能。但是如果Spark作業中的shuffle類操作比較多，而持久化操作比較少，那麼這個參數的值適當降低一些比較合適。此外，如果發現作業由於頻繁的gc導致運行緩慢（通過spark web ui可以觀察到作業的gc耗時），意味着task執行用戶代碼的內存不夠用，那麼同樣建議調低這個參數的值。

3.7　spark.shuffle.memoryFraction

參數說明：該參數用於設置shuffle過程中一個task拉取到上個stage的task的輸出後，進行聚合操作時能夠使用的Executor內存的比例，默認是0.2。也就是說，Executor默認只有20%的內存用來進行該操作。shuffle操作在進行聚合時，如果發現使用的內存超出了這個20%的限制，那麼多餘的數據就會溢寫到磁盤文件中去，此時就會極大地降低性能。
參數調優建議：如果Spark作業中的RDD持久化操作較少，shuffle操作較多時，建議降低持久化操作的內存佔比，提高shuffle操作的內存佔比比例，避免shuffle過程中數據過多時內存不夠用，必須溢寫到磁盤上，降低了性能。此外，如果發現作業由於頻繁的gc導致運行緩慢，意味着task執行用戶代碼的內存不夠用，那麼同樣建議調低這個參數的值。

資源參數的調優，沒有一個固定的值，需要同學們根據自己的實際情況（包括Spark作業中的shuffle操作數量、RDD持久化操作數量以及spark web ui中顯示的作業gc情況），同時參考本篇文章中給出的原理以及調優建議，合理地設置上述參數。

Spark（十五）Spark Core 調優之Spark資源調優

文章目錄

一、概述

二、Spark作業基本運行原理

三、資源參數調優

3.1　num-executors

3.2　executor-memory

3.3　executor-cores

3.4　driver-memory

3.5　spark.default.parallelism

3.6　spark.storage.memoryFraction

3.7　spark.shuffle.memoryFraction

一個月面試近20家大中小廠，在互聯網寒冬突破重圍，成功上岸！

數倉分層的意義價值及如何設計數據分層

Spark（十七）Spark Core 調優之資源調優JVM的GC垃圾收集器

Spark（十五）Spark Core 調優之Spark資源調優

Spark（十三）Spark Core 調優之Shuffle調優

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

Spark（十五）Spark Core 調優之Spark資源調優

文章目錄

一、概述

二、Spark作業基本運行原理

三、資源參數調優

3.1 num-executors

3.2 executor-memory

3.3 executor-cores

3.4 driver-memory

3.5 spark.default.parallelism

3.6 spark.storage.memoryFraction

3.7 spark.shuffle.memoryFraction

3.1　num-executors

3.2　executor-memory

3.3　executor-cores

3.4　driver-memory

3.5　spark.default.parallelism

3.6　spark.storage.memoryFraction

3.7　spark.shuffle.memoryFraction