spark——比較map和mapPartitions

原創

2020-06-07 10:27

Spark中，最基本的原則，就是每個task處理一個RDD的partition。

MapPartitions操作的優點：
如果是普通的map，比如一個partition中有1萬條數據；ok，那麼你的function要執行和計算1萬次。
但是，使用MapPartitions操作之後，一個task僅僅會執行一次function，function一次接收所有的partition數
據。只要執行一次就可以了，性能比較高。
MapPartitions的缺點：可能會OOM。
如果是普通的map操作，一次function的執行就處理一條數據；那麼如果內存不夠用的情況下，比如處理了1千條
數據了，那麼這個時候內存不夠了，那麼就可以將已經處理完的1千條數據從內存裏面垃圾回收掉，或者用其他方
法，騰出空間來。
所以說普通的map操作通常不會導致內存的OOM異常。
在項目中，自己先去估算一下RDD的數據量，以及每個partition的量，還有自己分配給每個executor 的內存資
源。看看一下子內存容納所有的partition數據，行不行。如果行，可以試一下，能跑通就好。性能肯定是有提升
的。

//map和partition的區別：
scala> val rdd2 = rdd1.mapPartitions(_.map(_*10))
rdd2: org.apache.spark.rdd.RDD[Int] = MapPartitionsRDD[1] ...
scala> rdd2.collect
res1: Array[Int] = Array(10, 20, 30, 40, 50, 60, 70)
scala> rdd1.map(_ * 10).collect
res3: Array[Int] = Array(10, 20, 30, 40, 50, 60, 70)
介紹mapPartition和map的區別，引出下面的內容：
mapPartitionsWithIndex
val func = (index: Int, iter: Iterator[(Int)]) => {
iter.toList.map(x => "[partID:" + index + ", val: " + x + "]").iterator
}
val rdd1 = sc.parallelize(List(1,2,3,4,5,6,7,8,9), 2)
rdd1.mapPartitionsWithIndex(func).collect

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Kafka集羣部署及命令行操作

前提是：zookeeper集羣已經搭建完畢具體步驟見：https://blog.csdn.net/student__software/article/details/81486769 1、集羣規劃 hadoop102

student__software

2020-07-07 16:46:24

scala，實現case class類的時候業務字段過多導致的異常。不能超過22個字段

一、背景 1、在scala-2.10.x版本種，case class的元素超過22個以後即會編譯報錯 2、有些業務場景下，需要超過22個元素的值我們項目當中日誌一共有105個字段，在對原始日誌進行處理轉換成parquet文件的過程中

2020-07-03 23:23:36

hive中根據身份證號碼獲取年齡、性別

select id_no, id_no, case when length(id_no) = 18 then floor(datediff( from_unixtime(unix_timestamp()

2020-07-03 22:40:11

Hive行轉列過程中使用LATERAL VIEW遇到空MAP或者空數組的情況

背景： HIve在進行行轉列的過程中，如果遇到轉的數組或者MAP()的情況，會出現一種特殊情況，就是數據會消失：原數據： SELECT '1' AS id, MAP() AS

2020-07-03 22:40:11

hadoop 3.1.1的集羣搭建並完成高可用配置(詳細版)

一、簡介 hadoop是Apache基金會的一個頂級項目，最早期版本是十多年前發佈的，隨着飛速的迭代更新，2018年已經更新到了3.1.1版本。網絡上大多數都是舊版本的配置，本文卻是最新版本的hadoop的配置方法。本文以hado

2020-07-03 10:47:38

大數據學習線路圖-java轉大數據

大數據學習線路 https://blog.csdn.net/gitchat/article/details/78341484 hdfs博客： https://blog.csdn.net/kezhong_wxl/article/detail

2020-07-02 19:26:22

HBASE 單機部署

下載頁面: https://www.apache.org/dyn/closer.lua/hbase/2.2.5/hbase-2.2.5-bin.tar.gz 下載 https://mirrors.tuna.tsinghua.ed

2020-07-01 22:35:36

使用hive實現wordcount

1.創建數據 cd data vi wc 2.上傳數據 hdfs dfs -put wc /usr/ 3.創建外部表（先有數據後有表） 4.創建結果表 5.寫結果 6.查詢結果

王艺航的学习笔记

2020-07-01 22:35:11

如何理解MapReduce計算器，這篇文章能給你答案

MapReduce計數器是什麼？計數器是用來記錄job的執行進度和狀態的。它的作用可以理解爲日誌。我們可以在程序的某個位置插入計數器，記錄數據或者進度的變化情況。 MapReduce計數器能做什麼？ MapReduce 計數器（

一颗仙橙的程序员之旅

2020-07-01 20:05:11

深入淺出大數據核心技術與應用之HBase

HBase隸屬於hadoop生態系統，它參考了谷歌的BigTable建模，實現的編程語言爲 Java, 建立在HDFS之上，提供高可靠性、高性能、列存儲、可伸縮、實時讀寫的數據庫系統。它僅能通過主鍵(row key)和主鍵的ran

一颗仙橙的程序员之旅

2020-07-01 18:57:08

這篇文章能讓你對於高性能Spark的理解更上一層樓

引言：摘抄自《中國新通信》：近年來，大數據成爲工業界與學術界關注的熱點，因爲隨着存儲設備容量的快速增長、CUP外理能力的大幅提開，網絡帶寬的不斷增加。也爲大數據時代提共了強有力的技術支撐。從web1.0到web2.0，每個用戶都

一颗仙橙的程序员之旅

2020-07-01 18:57:08

什麼是MapReduce之Shuffle？看了這篇文章，我想你就清楚了

前言：（引用）騰訊分佈式數據倉庫（Tencent distributed Data Warehouse, 簡稱TDW）基於開源軟件Hadoop和Hive進行構建，並且根據公司數據量大、計算複雜等特定情況進行了大量優化和改造，目前

一颗仙橙的程序员之旅

2020-07-01 18:57:08

大數據Hive其實一點都不難，從入坑到放棄？不存在的

Hive 首先，我們來介紹一下什麼是Hive。有些人不僅會想，Hive不就是寫SQL的嗎。沒錯，Hive和SQL的語法結構很像，其實，二者沒有多大區別，甚至可以這樣講，Hive就是寫SQL。但是，問題就來了–它真正的就是SQL了嗎

一颗仙橙的程序员之旅

2020-07-01 18:57:08

linux安裝hadoop配置Yarn

1. 下載JDK，安裝部署JAVA環境。(1)export JAVA_HOME=/home/xxx/jdk1.6.0_24(2)export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib

正在加载丶

2020-06-29 08:33:19

大數據學習筆記之MapReduce

一、神馬是高大上的MapReduce 　　MapReduce是Google的一項重要技術，它首先是一個編程模型，用以進行大數據量的計算。對於大數據量的計算，通常採用的處理手法就是並行計算。但對許多開發者來說，自己完完全全實現一個並行計

正在加载丶

2020-06-29 08:33:18

24小時熱門文章

最新文章

最新評論文章