MapReduce 運行流程概括
MapTask任務數量的決定因素
每一個split分配一個mapTask並行實例處理
切片實現
- 由FileInputFormat實現類的getSplits()方法實現切片
- 默認切片大小就是Block塊大小(默認塊大小128M)
在FileInputFormat中,計算切片大小的邏輯代碼爲:
Math.max(minSize, Math.min(maxSize, blockSize));
minsize:默認值:1
配置參數: mapreduce.input.fileinputformat.split.minsize
maxsize:默認值:Long.MAXValue
配置參數:mapreduce.input.fileinputformat.split.maxsize