新手指導:mapreduce不同類型的數據分到同一個分區是否會影響輸出結果
問題導讀
1.不同類型數據被分到同一個分區,是否會影響輸出結果?
2.分區函數該如何實現
此篇需要對mapreduce有一定的瞭解,知道了解mapreduce的過程中,map需要分區,有多少個分區就有多少個reduce。因此我們的map是如何分區的。
map通過Partitioner實現分區。Partitioner則是通過取餘算法來實現的。
比如:
1.默認分區
key.hashcode%numPartitions
如果數值相同則被分到同一個分區。
2.自定義分區
在如下面是對男女進行分區:
對於上面假如我們把這些數據都放到一個分區中,
是否會影響輸出結果那?
答案是不影響輸出結果。
影響的是什麼?
如果都放到一個分區,會造成性能下降。
1.不同類型數據被分到同一個分區,是否會影響輸出結果?
2.分區函數該如何實現
此篇需要對mapreduce有一定的瞭解,知道了解mapreduce的過程中,map需要分區,有多少個分區就有多少個reduce。因此我們的map是如何分區的。
map通過Partitioner實現分區。Partitioner則是通過取餘算法來實現的。
比如:
1.默認分區
key.hashcode%numPartitions
如果數值相同則被分到同一個分區。
2.自定義分區
在如下面是對男女進行分區:
對於上面假如我們把這些數據都放到一個分區中,
是否會影響輸出結果那?
答案是不影響輸出結果。
影響的是什麼?
如果都放到一個分區,會造成性能下降。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章
Hive引擎底層初探
原創
2024-04-17 11:18:21
使用Hadoop和Nutch構建音頻爬蟲:實現數據收集與分析
原創
2024-02-22 01:13:43
從零開始學架構V2-初識架構設計-1
原創
2024-04-25 23:56:25
利用 Amazon EMR Serverless、Amazon Athena、Apache Dolphinscheduler 以及本地 TiDB 和 HDFS 在混合部署環境中構建無服務器數據倉庫
原創
2024-04-25 21:18:23
告別手動調度,海豚調度器 3.1.x 集羣部署讓你輕鬆管理多機!
原創
2024-04-23 21:18:20
入職3年-我如何做一名AI產品經理
原創
2024-04-22 11:16:31
用海豚調度器定時調度從Kafka到HDFS的kettle任務腳本
原創
2024-04-15 21:18:44
解密數倉的SQL ON ANYWHERE技術
原創
2024-04-03 10:32:41
Apache DolphinScheduler-3.2.0集羣部署教程
原創
2024-03-11 21:25:56
Apache Linkis 1.3.0 適配 華爲MRS+Scriptis 實戰分享
微衆開源
2024-02-23 21:45:28
AI大模型時代:企業如何構建數據智能基礎設施
原創
2024-02-21 12:33:41
hive 、spark 、flink之想一想
原創
2024-03-27 01:22:41
分佈式場景怎麼Join | 京東雲技術團隊
原創
2024-02-21 01:10:25