hadoop需要多少個reducer?

Reduce的數目建議是0.951.75乘以 (<no. of nodes> * mapred.tasktracker.reduce.tasks.maximum)。

用0.95,所有reduce可以在maps一完成時就立刻啓動,開始傳輸map的輸出結果。用1.75,速度快的節點可以在完成第一輪reduce任務後,可以開始第二輪,這樣可以得到比較好的負載均衡的效果。

增加reduce的數目會增加整個框架的開銷,但可以改善負載均衡,降低由於執行失敗帶來的負面影響。

上述比例因子比整體數目稍小一些是爲了給框架中的推測性任務(speculative-tasks) 或失敗的任務預留一些reduce的資源。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章