MapReduce之Recordreader組件

（1）以怎樣的方式從分片中讀取一條記錄，每讀取一條記錄都會調用RecordReader類；

（2）系統默認的RecordReader是LineRecordReader，如TextInputFormat；而SequenceFileInputFormat的RecordReader是SequenceFileRecordReader；

（3）LineRecordReader是用每行的偏移量作爲map的key，每行的內容作爲map的value；

（4）應用場景：自定義讀取每一條記錄的方式；自定義讀入key的類型，如希望讀取的key是文件的路徑或名字而不是該行在文件中的偏移量。

自定義RecordReader：

（1）繼承抽象類RecordReader，實現RecordReader的一個實例；

（2）實現自定義InputFormat類，重寫InputFormat中createRecordReader（）方法，返回值是自定義的RecordReader實例；

（3）配置job.setInputFormatClass()設置自定義的InputFormat實例；

源碼見org.apache.mapreduce.lib.input.TextInputFormat類；

RecordReader例子：

應用場景：

數據：

......

要求：分別計算奇數行與偶數行數據之和

奇數行綜合：10+30+50+70=160

偶數行綜合：20+40+60=120

新建項目TestRecordReader，包com.recordreader,

源代碼MyMapper.java：

package com.recordreader;

import java.io.IOException;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Mapper;

public class MyMapper extends Mapper {

@Override

protected void map(LongWritable key, Text value,Context context)

throws IOException, InterruptedException {

// TODO Auto-generated method stub

context.write(key, value);

}

源代碼MyPartitioner.java：

package com.recordreader;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Partitioner;

public class MyPartitioner extends Partitioner {

@Override

public int getPartition(LongWritable key, Text value, int numPartitions) {

// TODO Auto-generated method stub

if(key.get() % 2 == 0){

key.set(1);

return 1;

}

else {

key.set(0);

return 0;

}

源代碼MyReducer.java：

package com.recordreader;

import java.io.IOException;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Reducer;

public class MyReducer extends Reducer {

@Override

protected void reduce(LongWritable key, Iterable value,Context context)

throws IOException, InterruptedException {

// TODO Auto-generated method stub

int sum = 0;

for(Text val: value){

sum += Integer.parseInt(val.toString());

}

Text write_key = new Text();

IntWritable write_value = new IntWritable();

if(key.get() == 0)

write_key.set("odd:");

else

write_key.set("even:");

write_value.set(sum);

context.write(write_key, write_value);

}

源代碼MyRecordReader.java：

package com.recordreader;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.FSDataInputStream;

import org.apache.hadoop.fs.FileSystem;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.InputSplit;

import org.apache.hadoop.mapreduce.RecordReader;

import org.apache.hadoop.mapreduce.TaskAttemptContext;

import org.apache.hadoop.mapreduce.lib.input.FileSplit;

import org.apache.hadoop.util.LineReader;

public class MyRecordReader extends RecordReader {

private long start;

private long end;

private long pos;

private FSDataInputStream fin = null;

private LongWritable key = null;

private Text value = null;

private LineReader reader = null;

@Override

public void close() throws IOException {

// TODO Auto-generated method stub

fin.close();

}

@Override

public LongWritable getCurrentKey() throws IOException,

InterruptedException {

// TODO Auto-generated method stub

return key;

}

@Override

public Text getCurrentValue() throws IOException, InterruptedException {

// TODO Auto-generated method stub

return value;

}

@Override

public float getProgress() throws IOException, InterruptedException {

// TODO Auto-generated method stub

return 0;

}

@Override

public void initialize(InputSplit inputSplit, TaskAttemptContext context)

throws IOException, InterruptedException {

// TODO Auto-generated method stub

FileSplit fileSplit = (FileSplit)inputSplit;

start = fileSplit.getStart();

end = start + fileSplit.getLength();

Configuration conf = context.getConfiguration();

Path path = fileSplit.getPath();

FileSystem fs = path.getFileSystem(conf);

fin = fs.open(path);

fin.seek(start);

reader = new LineReader(fin);

pos = 1;

}

@Override

public boolean nextKeyValue() throws IOException, InterruptedException {

// TODO Auto-generated method stub

if(key == null)

key = new LongWritable();

key.set(pos);

if(value == null)

value = new Text();

if(reader.readLine(value) == 0)

return false;

pos++;

return true;

}

源代碼MyFileInputFormat.java：

package com.recordreader;

import java.io.IOException;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.InputSplit;

import org.apache.hadoop.mapreduce.JobContext;

import org.apache.hadoop.mapreduce.RecordReader;

import org.apache.hadoop.mapreduce.TaskAttemptContext;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

public class MyFileInputFormat extends FileInputFormat {

@Override

public RecordReader createRecordReader(InputSplit arg0,

TaskAttemptContext arg1) throws IOException, InterruptedException {

// TODO Auto-generated method stub

return new MyRecordReader();

}

@Override

protected boolean isSplitable(JobContext context, Path filename) {

// TODO Auto-generated method stub

return false;

}

源代碼TestRecordReader.java：

package com.recordreader;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import org.apache.hadoop.util.GenericOptionsParser;

public class TestRecordReader {

public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException{

Configuration conf = new Configuration();

String[] otherArgs = new GenericOptionsParser(conf, args).getRemainingArgs();

if (otherArgs.length != 2) {

System.err.println("Usage: wordcount ");

System.exit(2);

}

Job job = new Job(conf, "word count");

job.setJarByClass(TestRecordReader.class);

job.setMapperClass(MyMapper.class);

job.setReducerClass(MyReducer.class);

job.setPartitionerClass(MyPartitioner.class);

job.setNumReduceTasks(2);

job.setInputFormatClass(MyFileInputFormat.class);

FileInputFormat.addInputPath(job, new Path(otherArgs[0]));

FileOutputFormat.setOutputPath(job, new Path(otherArgs[1]));

System.exit(job.waitForCompletion(true) ? 0 : 1);

}

MapReduce之Recordreader組件

ollama使用

Window 安裝 Python 失敗 0x80070643，發生嚴重錯誤

TiDB Vector 太香啦：以圖搜圖初體驗！

《最新出爐》系列入門篇-Python+Playwright自動化測試-41-錄製視頻

MapReduce之Recordreader組件

MapReduce之join和sort

Python模塊之urllib和urllib2結合使用

Python正則及re模塊

linux用curl命令測試Post請求

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結