Hadoop之Mapreduce------>Mapreduce原理

原創

2020-02-21 12:26

Mapruduce工作原理

與hdfs（分佈式文件系統）不同，Mapreduce 是一個分佈式計算模型，如圖

執行步驟：
1. map任務處理------>切片
1.1 讀取輸入文件內容，解析成key、value對，輸入文件的每一行，就是一個key、value對，對應調用一次map函數。
1.2 寫自己的邏輯，對輸入的key、value（k1,v1）處理，轉換成新的key、value(k2,v2)輸出。

2.reduce任務處理------>計算
（注意）在reduce之前，有一個shuffle的過程對多個map任務的輸出進行合併、排序、分組等操作。
2.1 寫reduce函數自己的邏輯，對輸入的key、value（k2,{v2,...}）處理，轉換成新的key、value(k3,v3)輸出。
2.2 把reduce的輸出保存到文件中。

發佈了35 篇原創文章 · 獲贊 11 · 訪問量 3萬+

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

大數據運維面試題整理

HDFS總結： 1、HDFS是如何解決大規模數據的存儲和管理的 2、HDFS的架構原理和各核心組件的作用及關係 3、HDFS文件系統數據的讀寫流程 4、HDFS的HA的架構原理及核心 5、HDFS的Federation機制 6、HDSF的

2020-06-19 04:09:57

生產環境調優YARN Container參數

Container是nodemanager虛擬出來的容器，用來運行task任務的，調優維度是memory+vcore 如何優化Container參數？？假設128G,16個物理core的服務器 1、裝完Centos，消耗內

2020-06-19 04:09:57

Hadoop-HDFS組件中的本地存儲目錄(NN/DN/SNN)結構剖析

HDFS metadata以樹狀結構存儲整個HDFS上的文件和目錄，以及相應的權限、配額和副本因子（replication factor）等。本文基於hadoop2.6-cdh5.16.2版本介紹HDFS Namenode本地目錄

2020-06-19 04:09:57

hadoop核心------>HDFS原理

一、hdfs體系架構 1.NameNode------>管理節點------>hdfs中老大（1）維護着整個文件系統的文件目錄樹；（2）維護元數據信息；（3）接收用戶的操作請求

2020-06-15 01:43:14

HDFS的java接口實現上傳下載

簡單的hdfs上傳，下載實現 1.使用idea導入hdfs的基本包方法一：複製粘貼法導jar包項目工程下新建lib文件夾------>複製hadoop的jar包到文件夾下： hadoop-2.7.3/share/hadoop/c

2020-06-15 01:43:14

Hadoop的RPC通信(二)------>框架封裝思想

一、 RPC框架的底層原理封裝 1.客戶端Controller 2.服務端Server 3.業務接口LoginServiceInterface 如圖： 1.首先controller會根據業務員接口，生成一個客戶端socket程序動態代

2020-06-15 01:43:14

HA/HDFS重要參數實操

2020-03-21 16:50:09

HDFS HA 架構解析

2020-03-14 23:38:28

YARN HA解析

2020-03-14 23:38:28

HDFS 文件讀寫流程剖析

2020-03-06 15:47:19

Hadoop的RPC通信------>java實現

2020-02-21 12:26:37

hadoop2.7.3僞分佈式搭建之一------>Linux環境的準備

2020-02-21 12:26:37

hadoop2.7.3僞分佈式搭建之二------>JDK在Linux虛擬機上的安裝

2020-02-21 12:26:37

Hadoop之Mapreduce------>入門級程序WordCount原理

2020-02-21 12:26:37

HDFS上傳與下載底層實現------>源碼分析

2020-02-21 12:26:37

24小時熱門文章

Spring Cloud 部署時如何使用 Kubernetes 作爲註冊中心和配置中心

最新文章

最新評論文章