新手指導:mapreduce不同類型的數據分到同一個分區是否會影響輸出結果

問題導讀
1.不同類型數據被分到同一個分區,是否會影響輸出結果?
2.分區函數該如何實現





此篇需要對mapreduce有一定的瞭解,知道了解mapreduce的過程中,map需要分區,有多少個分區就有多少個reduce。
因此我們的map是如何分區的。
map通過Partitioner實現分區。Partitioner則是通過取餘算法來實現的。
比如:
1.默認分區
key.hashcode%numPartitions
如果數值相同則被分到同一個分區。
2.自定義分區
在如下面是對男女進行分區:


對於上面假如我們把這些數據都放到一個分區中,
是否會影響輸出結果那?
答案是不影響輸出結果
影響的是什麼?
如果都放到一個分區,會造成性能下降。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章