Spark與MapReduce對比優勢

原創

2020-06-28 01:26

表達能力

MapReduce需要將所有計算轉換爲Map和Reduce，難以描述複雜處理過程；

Spark除Map和Reduce外，還支持RDD/DataFrame/DataSet等多種數據模型操作，編程模型更加靈活。

磁盤IO

MapReduce每步運算都要從磁盤讀取數據，結束後寫入磁盤數據，僅有小部分數據作爲臨時緩存放入內存，磁盤IO開銷比較大；

Spark將中間結果直接放入內存，既提高了迭代運算效率，又避免了大量的重複計算，據官方提供數據，同樣迭代運算效率Spark:Hadoop=110:0.9。

任務延遲

MapReduce將任務分成一系列運算順序執行，每次運算涉及磁盤IO，任務間銜接不及時，需要等上步完成才能進行下步運算，無法滿足複雜任務和多階段計算任務需求；

Spark基於DAG任務調度執行機制，不涉及磁盤IO延遲，迭代運算更快。

內存管理

MapReduce任務在啓動時已經在JVM內指定了最大內存，不能超過指定的最大內存；

Spark在超過指定最大內存後，會使用操作系統內存，既保證了內存的基本使用，又避免了提早分配過多內存帶來的資源浪費

並行處理

MapReduce中一個進程運行一個task，按序執行；

Spark中一個線程運行一個task，增加了並行度。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

數據開發崗找實習心得

經過兩個月左右的找實習經歷，讓我確定了自己的興趣點，也讓我看到了自己的不足。這段找實習的經歷想和大家分享，希望能夠幫助到找實習的同學。 1.儘早確定自己的實習方向一般來說，技術崗位有前端開發，後端開發，數據開發，算法工程師等

2020-07-05 13:43:36

挖掘企業數據礦產，袋鼠雲數棧(DTinsight)助力企業搭建數據中臺

2017年5月，英國《經濟學人》雜誌發表文章，將數據比作“未來的石油”。自那以後，數據是“21世紀最寶貴的資源”這種觀點便傳播開來。石油在進入消費領域之前，往往要經歷開採、儲運、煉化等過程。同樣，數據也要經過一系列的採集、加工、萃取，才

2020-07-04 20:05:19

突然火了的實時數倉

|0x00 數倉爲什麼要實時去年開始，實時數倉的概念突然火了。也許是傳統的離線數倉搞了很多年，技術相對成熟了，因此大家都把注意力放到了挑戰性更高的實時上來；也許是隨着存量市場競爭的到來，對於速度的要求越來越快，T+1已經不能滿足

晓阳的数据小站

2020-06-29 00:56:01

Hadoop生態系統各組件功能

參考： Spark編程基礎（Scala版）林子雨賴永炫陶繼平人民郵電出版社出版 2018-07-01 1.HDFS 分佈式文件系統 Hadoop分佈式文件系統HDFS是針對谷歌分佈式文件系統（Google Fil

2020-06-28 01:26:48

Flink ProcessFunction onTimer 延遲處理數據

ProcessFunction和CoProcessFunction 說明 DataStream與KeyedStreamd都有Process方法, DataStream接收的是ProcessFunction，而KeyedStream接收的是

2020-06-26 02:00:03

什麼是埋點？我們爲什麼需要埋點？（原作者：知乎原志Growing）

一、數據流程數據生產-數據採集-數據處理-數據分析和挖掘-數據驅動/用戶反饋-產品優化/迭代。數據採集，顧名思義採集相應的數據，是整個數據流的起點，採集的全不全、對不對，直接決定數據廣度和質量，影響後續所有的環節。在數據採集

爱码士王小刀

2020-06-22 07:02:41

flink實戰 -- 數據寫入clickhouse(ClickHouseSink)

簡介本文主要介紹如何通過Flink JDBC Connector將數據寫入ClickHouse以及直接使用Flink JDBC Connector操作ClickHouse存在什麼樣的問題。 Flink JDBC Connecto

2020-06-21 03:42:25

Oracle使用多核並行提高存過效率

問題場景因爲電信業務面向全國，經常要在oracle中定時處理全國30多個省份的數據，量級雖然不算太大隻有幾百萬的基站或小區相關位置數據，但由於涉及到大量的空間拓撲分析，單條數據處理都在秒級，如果一次性處理的話，不僅速度難以忍受，

2020-06-19 15:38:29

Scrapy的指紋去重原理

指紋去重算法代碼在scrapy.utils.request def request_fingerprint(request, include_headers=None): if include_headers:

2020-06-19 15:38:29

Scrapy的內置中間件類型

Scrapy中的內置中間件類型常見中間件下載中間件 DownloaderStats 保存所有通過的request、response及exception的中間件，通過啓用 DOWNLOADER_STATS 來啓用該中間件代理中

2020-06-19 15:38:19

Scrapy的基礎結構及請求流程

基礎結構引擎 Engine 調度器 Scheduler 下載器 Downloader 爬蟲 Spider 管道 Pipeline 引擎 Engine 負責整個框架調度。調度器 Scheduler 負責處理要請求的url，去

2020-06-19 15:38:19

Yarn運行原理了解

YARN運行原理 yarn的前世今生首先在hadoop1.0版本中，存在的最大問題就是資源管理的問題！隨着技術的發展，人們已經不在滿足hadoop集羣中只使用mapreduce一個計算框架，人們更希望有一套合理的管理機制來控制

2020-06-09 10:06:19

MaxWell 概述

MaxWell概述將mysql的binlog以json的形式輸出到kafka，它的常見用例包括ETL，緩存建立/過期，指標收集，搜索索引和服務間通信 json示例： mysql> update test.maxwell set d

2020-06-09 10:06:19

數據人如何做好能力積累

| 0x00 學習的力量從畢業開始，數據人就要奮鬥在學習的第一線上。數據開發與Java不同，它要求一個更高的起點；數據開發與Java相同的是，成爲專家都需要一個長期的學習過程。畢業伊始，數據人就要奮鬥在讀論文的道路上。大數據

晓阳的数据小站

2020-06-08 15:37:43

想了解大數據的鼻祖Hadoop技術棧，這裏有一份優質書單推薦！

2020-06-04 05:42:08

24小時熱門文章

最新文章

最新評論文章