MapReduce MapTask任務數量,切片大小筆記

MapReduce 運行流程概括

MapReducer 運行流程概括圖

MapTask任務數量的決定因素

每一個split分配一個mapTask並行實例處理

切片實現

  • 由FileInputFormat實現類的getSplits()方法實現切片
  • 默認切片大小就是Block塊大小(默認塊大小128M)
在FileInputFormat中,計算切片大小的邏輯代碼爲:
Math.max(minSize, Math.min(maxSize, blockSize));
minsize:默認值:1  
    配置參數: mapreduce.input.fileinputformat.split.minsize    
maxsize:默認值:Long.MAXValue  
    配置參數:mapreduce.input.fileinputformat.split.maxsize
發佈了118 篇原創文章 · 獲贊 10 · 訪問量 7萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章