spark性能調優一--常規調優

一，分配更多的資源

bin/spark-submit \
 --class cn.spark.sparktest.core.WordCountCluster \
 --driver-memory 100m \配置driver的內存（影響不大）
 --num-executors 3 \ 配置executor的數量
 --executor-memory 100m \ 配置每個executor的內存大小
 --executor-cores 3 \ 配置每個executor的cpu core數量 
 /usr/local/SparkTest-0.0.1-SNAPSHOT-jar-with-dependencies.jar

二，設置spark application的並行度

SparkConf conf=new SparkConf().set("spark.default.paralelism","500")

三，RDD架構重構和優化

四，廣播大變量

final Broadcast<Map<String,Map<String,List<Integer>>>> dateHourExtractMapBroadcast=sc.broadcast(dateHourExtractMap);

Map<String, Map<String, List<Integer>>> dateHourExtractMap =dateHourExtractMapBroadcast.value();

五，在項目中使用Kryo序列化

set("spark.serializer", "org.apache.spark.serializer.KryoSerializer")

六，在項目中使用fastutil框架

import it.unimi.dsi.fastutil.ints.IntArrayList;
import it.unimi.dsi.fastutil.ints.IntList;

        Map<String,Map<String,IntList>> fastutilDateHourExtractMap=new HashMap<String, Map<String, IntList>>();
        for(Map.Entry<String, Map<String,List<Integer>>> dateHourExtractEntry:dateHourExtractMap.entrySet()){
            String date=dateHourExtractEntry.getKey();
            Map<String,List<Integer>> hourExtractMap=dateHourExtractEntry.getValue();
            Map<String, IntList> fastutilHourExtractMap = new HashMap<String, IntList>();
            for(Map.Entry<String, List<Integer>> hourExtractEntry : hourExtractMap.entrySet()){
                String hour = hourExtractEntry.getKey();
                List<Integer> extractList = hourExtractEntry.getValue();

                IntList fastutilExtractList = new IntArrayList();
                for(int i = 0; i < extractList.size(); i++) {
                    fastutilExtractList.add(extractList.get(i));  
                }
                fastutilHourExtractMap.put(hour, fastutilExtractList);
            }
            fastutilDateHourExtractMap.put(date, fastutilHourExtractMap);
        }

七,調節本地化等待時長

SparkConf conf = new SparkConf()
                        .setAppName(Constants.SPARK_APP_NAME_SESSION)
                        .setMaster("local")
                        .set("spark.default.paralelism", "500")
                        .set("spark.locality.wait","10")
                        .set("spark.serializer","org.apache.spark.serializer.KryoSerializer")

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

spark性能調優一--常規調優

一，分配更多的資源

二，設置spark application的並行度

三，RDD架構重構和優化

四，廣播大變量

五，在項目中使用Kryo序列化

六，在項目中使用fastutil框架

七,調節本地化等待時長

[轉帖]使用NMT和pmap解決JVM資源泄漏問題原創

Python實現大麥網搶票的四大關鍵技術點解析

Python 安裝庫指令大全

salesforce零基礎學習（一百三十八）零碎知識點小總結（十）

一款開源的.NET程序集反編譯、編輯和調試神器

關於接口協議，你必須要知道這些！

【2024-05-21】以茶會友

企業大數據平臺一：企業需求及相關的基本組件

spark性能調優一--常規調優

企業大數據平臺三：企業大數據平臺安裝

spark性能調優二--JVM調優

jvm_outofmemory_JavaVMStackOOM

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結