mapReduce分組

原創

2020-02-25 04:58

原始數據

1 1

2 1

2 2

3 1

3 2

3 3

// 分組
job.setGroupingComparatorClass(MyGroupingComparator.class);

要繼承 RowComparator

static class MyGroupingComparator implements RawComparator<NewK2>{

		@Override
		public int compare(NewK2 o1, NewK2 o2) {
			return (int)(o1.first - o2.first);
		}
		/**
		 * @param arg0 表示第一個參與比較的字節數組
		 * @param arg1 表示第一個參與比較的字節數組的起始位置
		 * @param arg2 表示第一個參與比較的字節數組的偏移量
		 * 
		 * @param arg3 表示第二個參與比較的字節數組
		 * @param arg4 表示第二個參與比較的字節數組的起始位置
		 * @param arg5 表示第二個參與比較的字節數組的偏移量
		 */
		@Override
		public int compare(byte[] arg0, int arg1, int arg2, byte[] arg3,
				int arg4, int arg5) {
			return WritableComparator.compareBytes(arg0, arg1, 8, arg3, arg4, 8);
		}
		
	}

假如是求分組後的最小值

	static class MyReducer extends Reducer<NewK2, LongWritable, LongWritable, LongWritable>{
		protected void reduce(NewK2 k2, java.lang.Iterable<LongWritable> v2s, org.apache.hadoop.mapreduce.Reducer<NewK2,LongWritable,LongWritable,LongWritable>.Context context) throws java.io.IOException ,InterruptedException {
			long min = Long.MAX_VALUE;
			for (LongWritable v2 : v2s) {
				if(v2.get()<min){
					min = v2.get();
				}
			}
			
			context.write(new LongWritable(k2.first), new LongWritable(min));
		};
	}

結果爲：

1 1

2 1

3 1

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

使用Hadoop和Nutch構建音頻爬蟲：實現數據收集與分析

1. 背景介紹隨着音頻內容在互聯網上的廣泛應用，如音樂、播客、語音識別等，越來越多的企業和研究機構希望能夠獲取和分析這些數據，以發現有價值的信息和洞察。而傳統的手動採集方式效率低下，無法滿足大規模數據處理的需求，因此需要利用自動化爬

2024-02-22 01:13:43

用海豚調度器定時調度從Kafka到HDFS的kettle任務腳本

在實際項目中，從Kafka到HDFS的數據是每天自動生成一個文件，按日期區分。而且Kafka在不斷生產數據，因此看看kettle是不是需要時刻運行？能不能按照每日自動生成數據文件？爲了測試實際項目中的海豚定時調度從Kafka到HDFS的K

2024-04-15 21:18:44

解密數倉的SQL ON ANYWHERE技術

本文分享自華爲雲社區《GaussDB DWS的SQL ON ANYWHERE技術解密》，作者：tooooooooooomy。 1. 前言適用版本：【8.1.1（及以上）】查詢分析是大數據要解決的核心問題之一，雖然大數據相關的處理引

2024-04-03 10:32:41

Apache DolphinScheduler-3.2.0集羣部署教程

集羣部署方案(2 Master + 3 Worker) Apache DolphinScheduler官網：https://dolphinscheduler.apache.org/zh-cn Apache DolphinScheduler

2024-03-11 21:25:56

Apache Linkis 1.3.0 適配華爲MRS+Scriptis 實戰分享

一、概述團隊有需求要在頁面上同時使用sql和python語法對數據進行分析，在調研過程中發現linkis可以滿足需要，遂將其引入內網，由於使用的是華爲MRS，與開源的軟件有所不同，又進行了二次開發適配，本文將分享使用經驗，希望對有需

2024-02-23 21:45:28

AI大模型時代：企業如何構建數據智能基礎設施

在AI大模型時代，數據已經成爲企業的重要資產。爲了更好地利用數據，企業需要構建一套高效、穩定、可擴展的數據智能基礎設施。本文將介紹如何構建這樣的基礎設施，並探討其中的關鍵技術和實踐經驗。一、數據採集與整合數據是構建數據智能基礎設施的基礎

2024-02-21 12:33:41

重新啓動Hadoop命令

重新啓動Hadoop命令整體流程爲了重新啓動Hadoop命令，我們需要按照以下步驟進行操作：步驟描述停止Hadoop集羣中的所有服務清除Hadoop臨時文件和數據啓動Hadoop集羣中的所有服務驗證Had

2023-10-01 11:48:17

Iceberg入門介紹

1、Iceberg簡介本質：一種數據組織格式 1.1、應用場景 ①面向大表：單表包含數十個PB的數據 ②分佈式引擎非必要：不需要分佈式SQL引擎來讀取或查找文件 ③高級過濾：使用表元數據，使用分區和列級統計信息修建數據文件 1.2、集成方

2023-08-02 00:02:27

Hive存儲過程實現-hpsql

1. 什麼是hpsql 目前版本的hive中沒有提供類似存儲過程的功能，使用Hive做數據開發時候，一般是將一段一段的HQL語句封裝在Shell或者其他腳本中，然後以命令行的方式調用，完成一個業務或者一張報表的統計分析。好消息是，

2023-08-01 00:03:02

助力長城汽車數據管道平臺連接“數據孤島”，加強數據一元化，Apache DolphinScheduler 的角色定位

講師簡介長城汽車-IDC-數據中臺部-劉永飛高級工程師我是長城汽車 IDC-數據中臺部的劉永飛，給大家分享一下我們自研的一個數據同步工具平臺，以及在使用這個工具過程中遇到的問題。今天的分享主要有四個部分：我們自研的數據管道工具平

2023-06-13 11:33:03

雲存儲，爲 AI 創新提速

當下，如火如荼的 AI 大模型對算力和數據存儲提出了更高的要求。在 6 月 1 日結束的“阿里雲峯會·粵港澳大灣區”上，阿里雲智能資深產品專家彭亞雄在 AI 新範式與商業創新論壇上做了《雲存儲，爲 AI 創新提速》的主題分享。彭亞雄認爲，在

2023-06-09 00:29:05

hive 、spark 、flink之想一想

hive 1：hive是怎麼產生的？ 2：hive的框架是怎麼樣的？ 3：hive 執行流程是什麼？ 4：hive sql是如何把sql語句一步一步到最後執行的？ 5：hive sql任務常用參數調優做過什麼？ spark 6：sp

2024-03-27 01:22:41

分佈式場景怎麼Join | 京東雲技術團隊

背景最近在閱讀查詢優化器的論文，發現System R中對於Join操作的定義一般分爲了兩種，即嵌套循環、排序-合併聯接。在原文中，更傾向使用排序-合併聯接邏輯。考慮到我的領域是在處理分庫分表或者其他的分區模式，這讓我開始不由得聯想我們

2024-02-21 01:10:25

老知識覆盤-SQL從提交到執行到底經歷了什麼 | 京東雲技術團隊

一、什麼是SQL sql(Structured Query Language: 結構化查詢語言)是高級的費過程化編程語言,允許用戶在高層數據結構上工作, 是一種數據查詢和程序設計語言, 也是(ANSI)的一項標準的計算機語言. but...

2023-11-22 12:37:34

MaxCompute 發佈按量付費閒時版，計算成本最高節省66.66%！

什麼是按量付費閒時版開通MaxCompute按量付費閒時版，意味着用戶可以使用MaxCompute閒時計算資源（os_SpotQuota），它是一種共享型按量付費計算資源，閒時計算資源池與按量付費標準版計算資源共享，與包年包月計算資源隔

2023-08-17 00:29:28

24小時熱門文章

最新文章

最新評論文章