每一個map都可能會產生大量的本地輸出,Combiner的作用就是對map端的輸出先做一次合併,以減少在map和reduce節點之間的數據傳輸量,以提高網絡IO性能,是MapReduce的一種優化手段之一。
l combiner是MR程序中Mapper和Reducer之外的一種組件
l combiner組件的父類就是Reducer
l combiner和reducer的區別在於運行的位置:
Combiner是在每一個maptask所在的節點運行
Reducer是接收全局所有Mapper的輸出結果;
l combiner的意義就是對每一個maptask的輸出進行局部彙總,以減小網絡傳輸量
l 具體實現步驟:
1、 自定義一個combiner繼承Reducer,重寫reduce方法
2、 在job中設置: job.setCombinerClass(CustomCombiner.class)
l combiner能夠應用的前提是不能影響最終的業務邏輯,而且,combiner的輸出kv應該跟reducer的輸入kv類型要對應起來
Mapreduce的combiner
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章
(第4篇)hadoop之魂--mapreduce計算框架,讓收集的數據產生價值
I加加
2019-02-23 00:37:51
Idea裏面MapReduce設置FileInputFormat參數格式變化
huft
2019-01-21 13:28:53
阿里雲大數據計算服務MaxCompute使用教程
推薦碼發放
2018-12-31 21:58:56
阿里雲大數據ACP認證知識點梳理1——產品特點(MAXCOMPUTE)
朱祺
2018-12-11 19:22:58
26項大數據專業認證助你漲薪
gaojj
2018-11-30 17:00:02
Google MapReduce到底解決什麼問題?
技術小能手
2018-11-30 10:40:48
全面對比,深度解析 Ignite 與 Spark
技術小能手
2018-09-29 14:35:27
理論與實踐:如何從Hadoop遷移到MaxCompute
午夜漫步者
2018-09-16 10:07:14
通過簡單瘦身,解決Dataworks 10M文件限制問題
x暖憶
2018-09-13 03:03:34
Mapreduce的分區—Partitioner
CZ小螞蚱
2018-09-13 02:02:17
Mapreduce的排序初步
CZ小螞蚱
2018-09-13 02:02:17
弄清Spark、Storm、MapReduce的這幾點區別才適合學習大數據
I加加
2018-09-11 07:28:29
(第4篇)hadoop之魂--mapreduce計算框架,讓收集的數據產生價值
I加加
2018-09-11 06:17:35
一張圖精通Mapreduce
23蘿蔔
2018-09-11 04:00:35
請問:hive中avg聚合函數會使用到combiner功能嗎?
菜鳥coder
2018-11-23 21:59:32
24小時熱門文章
-
再談23種設計模式(3):行爲型模式(學習筆記)
-
Power Automate Desktop 安裝完,登錄後老是提示one driver 錯誤
-
微前端學習筆記(4):從微前端到微模塊之EMP與hel-micro方案探索
-
微前端學習筆記(1):微前端總體架構概述,從微服務發微
-
985 碩士程序員,空窗 4 個月沒有 Offer!
-
一文搞懂 Spring 循環依賴
-
賽博鬥地主——使用大語言模型扮演Agent智能體玩牌類遊戲。
-
VScode右鍵打開(添加到右鍵)
-
記一次 .NET某工控視覺自動化系統 卡死分析
-
WindowsServer--SQL Server搭建主從同步實現讀寫分離 - 事務性分發