十張圖帶你入門Map/Reduce

原創

2020-06-30 02:38

發表於2013-01-07 14:16| 6647次閱讀| 來源個人博客| 10 條評論| 作者Aurelien

Hadoop MapReduce

摘要：博主Aurelien，從13歲開始編程。曾在荷蘭、比利時、法國、硅谷等多個國家從事網站開發，現效力於Terracotta公司。本篇文章來自Aurelien博客，用一個很簡單的用例爲初學者介紹了Map/Reduce的使用方法；希望爲廣大初學者帶來幫助。

你可能已經知道：Map/Reduce是一種模式，非常適合令人煩惱的並行算法。但是什麼是令人煩惱的並行算法？答案：這個算法非常適合被多重並行的執行。那麼什麼樣的模式纔會非常適合並行算法？答案：任何作用在數據上的算法都會被隔離。

如果你編寫的程序經常會在同一個時刻執行多重事件，並且它們需要訪問一些公用數據；那麼將會出現衝突，你必須着手處理當一個事件修改某個數據時，而另一個事件正在讀取這段數據。這就是併發操作。如果你事件作用的數據段沒有被其它事件操作，那麼做的將是並行操作。顯而易見：你可以使用擴展來解決併發性問題。

舉個例子：如果你有一張記錄了城市的表格，而每個城市都有兩個屬性 —— 所屬州和城市年度平均溫度。比如：San Francisco：{CA，58}。現在你想計算每年的平均溫度 —— BY STATE。因爲可以通過state對city進行分組查詢，然後計算一個州的平均溫度而不涉及到其他的州 —— 這裏就將會出現高度並行算法問題。

如果你想逐步做這件事，你將從一個空的平均溫度表開始。然後迭代訪問表中的城市，查詢每個城市中的state屬性，接着做出相關的年度平均溫度修改。

接下來看第一幅圖：

這是一張印度地圖。有許多州：MP、CG、OR等等。同樣有數個城市，每一個城市都有{State，City average temperture}作爲值。

這裏我們將做每個周的平均溫度。我們將通過state來分組查詢城市的平均溫度，然後計算出每個組的平均值。

當然我們並不是很在意每個城市的名稱，所以將拋棄它只保留州名和城市溫度。

既然已經獲得了我們想要的數據，那麼可以通過state進行重分組。我們將得到一張關於所有州內所有平均溫度的表。

這裏我們得到了非常好的數據模型用於邏輯計算，而僅需要做的就是計算每個州的平均溫度。

當然，這並不困難。

我們有一些數據。做一點點的重分組，然後做計算。當然所有的這些都可以並行的執行（每個state一個並行任務）。

下面我們使用Map/Reduce重做這個問題！

Map/Reduce有3個步驟：Map/Shuffle/Reduce

Shuffle部分由Hadoop自行完成，這裏只需要關注Map和Reduce的實現部分。

在Map部分你需要輸入<Key，Value>數據。

在這裏Key就是城市的名稱，而Value是屬性集：所屬州以及城市均溫。

同樣通過state將temperature重分組、排除下城市名稱，那麼在state變爲Key時temperature將成爲Value。

現在Shuffle的任務是實現Map的完成。它將會通過Key進行分組，然後你就會獲得一個List<Value>。

這也將作爲Reduce任務的輸入數據 —— 從Shuffle任務中獲得的Key、List<Value>。

Reduce任務還是數據邏輯的完成者，在這裏當然就是計算州的年平均溫度。

我們也將獲得如下的最終結果

這樣就完成了Map/Reduce對數據進行重塑：

Mapper<K1，V1> ==》 <K2，V2>

Reducer<K2，List<V2> >==》<K3，V3>

簡單的Map/Reduce入門希望能幫助弄清Map/Reduce任務的實現過程，下面附帶用例代碼：用例代碼部分（Java）

原文鏈接：Confused About Map/Reduce?（編譯/仲浩王旭東/審校）

歡迎關注@CSDN雲計算微博，瞭解更多雲信息。

本文爲CSDN編譯整理，未經允許不得轉載。如需轉載請聯繫mark

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

芯片產業管理和營銷指北（4）—— 產品線經理的修行

本篇是系列最後一篇，本系統所有內容均來自俞志宏老師的《我在硅谷管芯片：芯片產品線經理生存指南》一書的總結整理。工程師工作比較線性，需要深挖專業知識，但也僅需要專注於專業知識。通常的工作內容是：：設計某個電路，測試某些參數，解決某

2024-06-10 14:36:43

【簡寫Mybatis-02】註冊機的實現以及SqlSession處理

前言注意：學習源碼一定一定不要太關注代碼的編寫，而是注意代碼實現思想：通過設問方式來體現代碼中的思想；方法：5W+1H 源代碼： https://gitee.com/xbhog/mybatis-xbhog ； https://gi

2024-06-10 14:35:12

kube-vip高可用k8s羣

kubeadm init --control-plane-endpoint="192.168.215.200" --kubernetes-version=v1.28.2 --pod-network-cidr=10.244.0.0/16 --

2024-06-10 14:29:12

Mac 安裝 Node Error: Could not symlink include/node/common.gypi

根據提示，賦權限，刪除文件等 jimmy@MacBook-Pro ~ % brew link node Linking /usr/local/Cellar/node/20.0.0... Er

2024-06-10 14:17:51

EDGE瀏覽器新用戶配置登錄Microsoft賬戶出現0x80190001錯誤代碼

在網頁內可以輕鬆反覆登陸Microsoft賬戶，但是在EDGE瀏覽器上無法登陸。瀏覽器原本有一個用戶配置，已經登陸了一個賬號，在創建新的用戶配置時，始終無法登陸賬戶。這個情況持續了兩個星期若是有使用代理，加速器，hosts修改器

2024-06-10 14:13:51

hosts文件丟失或更改後如何還原

無論hosts文件丟失還是被更改了內容，都可以嘗試以下的內容來恢復原樣。一、技術難度：★☆（1星半）閱讀時間：大約2分鐘 hosts文件所在位置：C:\Windows\System32\drivers\etc 二、

2024-06-10 14:13:51

python gdal 安裝使用（Windows， python 3.6.8）

python gdal 安裝使用 python GDAL有兩種安裝方式：第一種是利用 pip install gdal 安裝如果安裝失敗，可以採用下面的方法：第二種離線安裝步驟：（1）查看python版本；（2）下載gdal的

2024-06-10 14:13:11

手繪二維碼

看到二維碼，很容易猜到黑白相間的小方格就是二進制比特。那麼這些比特是怎麼得到的？小方格又是按照什麼規則排布的？今天咱們就從零開始將一個 url 畫成二維碼。考慮到大多數人可能不太瞭解二維碼，所以先講下基礎概念。你也可以先看看左耳朵耗子寫的

2024-06-10 14:11:51

研發高階能力之「技術規劃」

爲什麼規劃是高階能力明確什麼是正確的事（what、why），前置於如何正確的做（how）。真有能力明確，就可以不用親自做提出正確的問題，比解決問題更難權力/權威/影響力，建立在比別人都更正確規劃強依賴的事理

2024-06-10 14:11:51

Vue TypeScript 實戰：掌握靜態類型編程

title: Vue TypeScript 實戰：掌握靜態類型編程 date: 2024/6/10 updated: 2024/6/10 excerpt: 這篇文章介紹瞭如何在TypeScript環境下爲Vue.js應用搭建項目結構，包括

2024-06-10 14:05:40

Python: two dimensional array

# 假設puzzle是一個包含多個字符串的列表，每個字符串都是同一長度的，代表字母網格的一行 puzzle = [ "JGJGDDAOYD", "IDGFHSPOSA", "FGDIOSAFSC

®Geovin Du Dream Park™

2024-06-10 14:03:20

從零手寫實現 nginx-13-nginx.conf 配置例子解釋 + nginx 配置文件要如何解析？

前言大家好，我是老馬。很高興遇到你。我們爲 java 開發者實現了 java 版本的 nginx https://github.com/houbb/nginx4j 如果你想知道 servlet 如何處理的，可以參考我的另一個項目：

2024-06-10 14:02:20

【MySQL】查詢以A字符開頭以B字符結尾的數據

查詢以36823206字符開頭以951字符結尾的SPU數據 select * from lingyejun_product where spu_code regexp '^36823206' and spu_code regexp '95

2024-06-10 13:52:19

Web Page Marker Pen All In One

Web Page Marker Pen All In One Web 網頁標記筆 Free Screenshot Capture & Annotation Tool Useful extension for taking screen

2024-06-10 13:51:29

2024 上海市居民小區的電動自行車使用共享充電服務的充電收費標準和依據 All In One

2024 上海市居民小區的電動自行車使用共享充電服務的充電收費標準和依據 All In One 電動自行車充電服務收費標準合法性、合理性按照實際的充電度數和電費價格收取電費，服務費應該單獨收取每次充電收取的服務費的佔比不能高

2024-06-10 13:51:29

24小時熱門文章

最新文章

最新評論文章