Reduce的數目建議是0.95或1.75乘以 (<no. of nodes> * mapred.tasktracker.reduce.tasks.maximum)。
用0.95,所有reduce可以在maps一完成時就立刻啓動,開始傳輸map的輸出結果。用1.75,速度快的節點可以在完成第一輪reduce任務後,可以開始第二輪,這樣可以得到比較好的負載均衡的效果。
增加reduce的數目會增加整個框架的開銷,但可以改善負載均衡,降低由於執行失敗帶來的負面影響。
上述比例因子比整體數目稍小一些是爲了給框架中的推測性任務(speculative-tasks) 或失敗的任務預留一些reduce的資源。