大數據技術之Hadoop之MapReduce（3）——MapReduce工作流程

原創

张反水

2020-06-19 01:12

3.2 MapReduce工作流程

1．流程示意圖：

2．流程詳解

上面的流程是整個MapReduce最全工作流程，但是Shuffle過程只是從第7步開始到第16步結束，具體Shuffle過程詳解，如下：
1）MapTask收集我們的map()方法輸出的kv對，放到內存緩衝區中
2）從內存緩衝區不斷溢出本地磁盤文件，可能會溢出多個文件
3）多個溢出文件會被合併成大的溢出文件
4）在溢出過程及合併的過程中，都要調用Partitioner進行分區和針對key進行排序
5）ReduceTask根據自己的分區號，去各個MapTask機器上取相應的結果分區數據
6）ReduceTask會取到同一個分區的來自不同MapTask的結果文件，ReduceTask會將這些文件再進行合併（歸併排序）
7）合併成大文件後，Shuffle的過程也就結束了，後面進入ReduceTask的邏輯運算過程（從文件中取出一個一個的鍵值對Group，調用用戶自定義的reduce()方法）

3．注意

Shuffle中的緩衝區大小會影響到MapReduce程序的執行效率，原則上說，緩衝區越大，磁盤io的次數越少，執行速度就越快。
緩衝區的大小可以通過參數調整，參數：io.sort.mb默認100M。

4．源碼解析流程

context.write(k, NullWritable.get());
output.write(key, value);
collector.collect(key, value,partitioner.getPartition(key, value, partitions));
	HashPartitioner();
collect()
	close()
	collect.flush()
sortAndSpill()
	sort()   QuickSort
mergeParts();
collector.close();

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

大數據技術之Hadoop之MapReduce（3）——MapReduce工作流程

3.2 MapReduce工作流程

1．流程示意圖：

2．流程詳解

3．注意

4．源碼解析流程

lightdb hash index的性能和限制

安裝Linux以及搭建Hadoop3.1.2集羣（9）——集羣時間同步(完成）

安裝Linux以及搭建Hadoop3.1.2集羣（6）——僞分佈式環境搭建

大數據技術之Shell

安裝Linux以及搭建Hadoop3.1.2集羣（7）——完全分佈式集羣配置

大數據技術之Hadoop之HDFS(1)——HDFS概述

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結