MR 筆記一

原創

新手路上的程序员

2020-07-04 06:18

1.MapReduce編程規範及示例編寫
Mapper類
用戶自定義一個Mapper類繼承Hadoop的Mapper類
Mapper的輸入數據是KV對的形式（類型可以自定義）
Map階段的業務邏輯定義在map()方法中
Mapper的輸出數據是KV對的形式（類型可以自定義）
注意：map()方法是對輸入的一個KV對調用一次！！簡單點說在讀取文本的時候每一行數據會觸發一次Map任務
舉個栗子 wordcount:
LongWritable, Text, Text, IntWritable
LongWritable:讀取文本的偏移量(行級偏移量)
Text:讀取文本一行的數據
Text:map的輸出
IntWritable:計數比如說一個單詞算一次那麼就算1

Reducer類
用戶自定義Reducer類要繼承Hadoop的Reducer類
Reducer的輸入數據類型對應Mapper的輸出數據類型（KV對）
Reducer的業務邏輯寫在reduce()方法中
Reduce()方法是對相同K的一組KV對調用執行一次涉及到多路歸併排序到reduce的數據會是hello,<1,1,1,1,1>
所以在重寫reduce方法時values是一個迭代器:Text key, Iterable<IntWritable> values, Context context
舉個栗子 wordcount:
Text, IntWritable, Text, IntWritable
Text, IntWritable:map的輸出
Text:reduce的輸出
IntWritable:最終的計數

Driver階段
創建提交YARN集羣運行的Job對象，其中封裝了MapReduce程序運行所需要的相關參數入輸入數據路徑，輸出數據路徑等，也相當於是一個YARN集羣的客戶端，主要作用就是提交我們MapReduce程序運行

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

MapReduce提交job到Yarn的流程學習

引言以MapReduce爲例，提交一個MapReduce application的大致流程如下，其中Resource Manager簡寫爲RM，Node Manager簡寫爲NM，Application Master簡寫爲AM。 Top

2020-06-18 22:43:49

MR 筆記三

Shuffle機制 map階段處理的數據如何傳遞給reduce階段，是MapReduce框架中最關鍵的一個流程，這個流程就叫shuffle。shuffle: 洗牌、發牌——（核心機制：數據分區，排序，分組，combine，合併等過程）

新手路上的程序员

2020-07-04 06:18:36

MR 筆記二

1.Writable接口在MR中使用對象創建對象時需要實現Writable接口中的write()和readFields()方法反序列化方法讀順序必須和寫序列化方法的寫順序必須一致 2.MapTask運行機制詳解詳細步驟：

新手路上的程序员

2020-07-04 06:18:36

MR 筆記五

1.InputFormatInputFormat常見子類包括: TextInputFormat （普通文本文件，MR框架默認的讀取實現類型） KeyValueTextInputFormat（讀取一行文本數據按照指定分隔符，把數據封裝爲kv

新手路上的程序员

2020-07-04 06:18:36

MR 筆記四

1.MapReduce中的Combiner 1. Combiner是MR程序中Mapper和Reducer之外的一種組件 2. Combiner組件的父類就是Reducer 3. Combiner和reducer的區別在於運行的位置

新手路上的程序员

2020-07-04 06:18:36

hololens初識

概述 Hololens的特性空間映射場景匹配自然交互通用應用缺點環境搭建系統硬件 GPU 軟件環境概述 Hololens是微軟公司開發的

2020-06-30 07:03:40

HCE

hadoop概念 Hadoop系統提供了MapReduce計算框架的開源實現，像Yahoo!、Facebook、淘寶、中移動、百度、騰訊等公司都在藉助Hadoop進行海量數據處理。Hadoop系統性能不僅取決於任務調度器的分配策略，還

love others as self

2020-06-19 14:12:00

記一個hive1.2.1 orc 事務表不能正常提交合並任務的問題

正常情況下，hive通過 CompactionTxnHandler中的findPotentialCompactions 方法獲取需要合併的表信息，如下所示，會分別掃描COMPLETED_TXN_COMPONENTS和 TXNS, TXN_

彼岸枫雪非

2020-06-17 03:44:51

大數據Hadoop之MR TopN案例

1．需求對輸入數據進行加工，輸出流量使用量在前10的用戶信息（1）輸入數據 13470253144 180 180 360 13509468723 7335 110349 117684 13560439638 918 4938

语言决定未来。

2020-06-14 11:16:56

Hadoop生態之MapReduce工作機制二(七)

一、MapReduce程序的打包運行過程： 1> 選中待打包項目，右鍵選擇菜單export，導出項目 2> 點擊Next進行下一步操作，選擇需要打包的類，輸入導出jar包的名稱和路徑。(可以報lib包去掉，集羣上包含的有mr的依賴包

2020-06-11 04:31:54

Idea開發調試MapReduce的wordCount

好久沒搞了。來複習一下，首先我們嘗試本地開發調試首先我跟着有位博主的步驟出發： https://blog.csdn.net/programmer_wei/article/details/45286749 然後報了一個錯誤： Except

彼岸枫雪非

2020-06-08 18:53:37

[記錄]Hololens部署時vs報錯：缺少Win10SDK

在打包UWP後，用VS部署，報了一個缺少SDK“WindowsMobile version 10.0.17134.0”的錯誤我以爲是vs的win10sdk沒有安裝成功的錯誤，在qq羣求助，百度之後，我反覆卸載/安裝/調試 vs2015

天朝炼药大师·休

2020-06-06 22:21:19

[記錄]開發Hololens時Unity報錯缺少UnityEngine.VR命名空間的問題

在Unity2017（包含）以後版本里，Unity自帶的庫類UnityEngine是沒有VR這個庫的，出現一個新的庫類UnityEngine.XR，之前Unity版本的VR庫歸類到XR庫裏。所以我用較早的HoloTookit配合Unity

天朝炼药大师·休

2020-06-06 22:19:47

[記錄]hololens導出時報錯缺少命名空間“Windows.Devices.Haptics”

我在用Unity2017.2.1 配合holotoolkit2017.2.1時（也就是說版本是匹配的。問題沒有出現在這裏），出現三個報錯： The type or namespace name 'Haptics' does not exi

天朝炼药大师·休

2020-06-06 22:19:17

大數據Hadoop之MR ETL數據清洗、計數器案例實操

语言决定未来。

2020-06-03 17:53:17

24小時熱門文章

SQL優化-20231016

最新文章

最新評論文章