Hadoop的簡單單詞統計案例

原創

G_Youda

2018-08-22 18:51

Hadoop的簡單單詞統計案例

在Hadoop學習過程中，單詞統計作爲一個最基本的案例，非常簡單實用，是每一個入門菜鳥必須要掌握的一個例子，可以通過這個簡單的小案例瞭解Hadoop的基本運行原理和MapReduce程序的開發流程

引入相關Hadoop目錄相關Jar文件：

（hdfs(必須),common（必須），mapreduce（必須））

引入配置文件：

core-site.xml；hdfs-site.xml；……

編寫Map程序：

package cn.guyouda.hadoop.mapreduce.wordcount;

import java.io.IOException;

import org.apache.commons.lang.StringUtils;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

/**
 * 
 * @author Youda
 *	Map需要四個泛型參數
 * KEYIN:輸入參數：默認是要處理的文本中的某一行的偏移量
 * VALUEIN：輸入參數：要處理的某一行文本內容
 * VALUEOUT：輸出給Reduce的數據類型
 * KEYOUT：輸出給Reduce的偏移量
 * 
 * 由於需要網絡傳輸，故參數需要序列化
 * 但是Java自帶的序列化會攜帶一些冗餘信息，不利於大量的網絡傳輸
 * 所以Hadoop對Long，String進行了封裝,變爲LongWritable,Text
 * 
 */
public class WordCountMapper  extends Mapper<LongWritable, Text, Text, LongWritable>{
	
	@Override
	protected void map(LongWritable key, Text value, Mapper<LongWritable, Text, Text, LongWritable>.Context context)
			throws IOException, InterruptedException {
		// 處理具體的業務邏輯
		
		String text = value.toString();
		String[] words = StringUtils.split(text," |,|\\.");
		for(String word:words){
			context.write(new Text(word), new LongWritable(1));
		}
		
	}
	
}

編寫Reduce程序：

package cn.guyouda.hadoop.mapreduce.wordcount;

import java.io.IOException;

import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

/**
 * 
 * @author Youda
 *	
 */
public class WordCountReducer extends Reducer<Text, LongWritable, Text, LongWritable>{

	@Override
	protected void reduce(Text arg0, Iterable<LongWritable> arg1,
			Reducer<Text, LongWritable, Text, LongWritable>.Context arg2) throws IOException, InterruptedException {
		Long value = 0L;
		for(LongWritable num:arg1){
			value += num.get();
		}
		
		arg2.write(arg0, new LongWritable(value));
		
	}
	
}

編寫控制程序：

package cn.guyouda.hadoop.mapreduce.wordcount;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

/**
 * 
 * @author Youda
 *指定Map和Reduce類
 *指定作業需要處理的數據位置
 *還可以指定數據輸出的結果路徑
 */
public class WordCountRunner {

	public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
		
		Configuration conf = new Configuration();
		Job job = Job.getInstance(conf);
		job.setJarByClass(WordCountRunner.class);
		
		//指定Map和Reduce類
		job.setMapperClass(WordCountMapper.class);
		job.setReducerClass(WordCountReducer.class);
		//指定Reduce的輸出類型
		job.setOutputKeyClass(Text.class);
		job.setOutputValueClass(LongWritable.class);
		
		//指定Map的輸出類型
		job.setMapOutputKeyClass(Text.class);
		job.setMapOutputValueClass(LongWritable.class);
		
		//指定源文件夾和輸出文件夾
		FileInputFormat.setInputPaths(job, new Path("/wordcount/srcdata/"));
		FileOutputFormat.setOutputPath(job, new Path("/wordcount/output/"));
		
		//提交：參數：是否顯示處理進度
		
		System.exit(job.waitForCompletion(true)?0:1);

	}

}

在Hadoop中創建文件夾需要統計的單詞所在文件夾並上傳

hadoop fs -mkdir /wordcont

hadoop fs -mkdir /wordcount/srcdata

hadoop fs -put XXXX.txt /wordcount/srcdata

注：在創建文件夾和上傳文件之前需要啓動HDFS（start-dfs.sh）輸出文件夾不能自己創建，否則程序運行時會報錯

運行程序：

hadoop jar Count.jar cn.guyouda.hadoop.mapreduce.WordCountRunner

運行結束以後會在輸出文件夾創建結果文件

注：運行程序前必須啓動YARN（start-yarn.sh）

顯示統計結果：

hadoop fs -cat /wordcount/output/part-r-00000

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Hadoop的簡單單詞統計案例

Hadoop的簡單單詞統計案例

引入相關Hadoop目錄相關Jar文件：

引入配置文件：

編寫Map程序：

編寫Reduce程序：

編寫控制程序：

在Hadoop中創建文件夾需要統計的單詞所在文件夾並上傳

運行程序：

顯示統計結果：

《Python進階》學習筆記

Leetcode 3161. 物塊放置查詢

leetcode 60 排列序列

一個docker容器暴露多個端口

微服務實踐之使用 Visual Studio 2022 調試Dapr 應用程序

wpf附加屬性理解 WPF附加屬性

基於Java實現的二分查找算法

獲取Android手機存儲相關信息

利用ZXing生成和讀取二維碼

Sublime Text 中文標題異常但是內容正常解決方案

關於項目發佈到雲服務器Tomcat無法正常運行的部分原因

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結