Shuffle(混洗)

shuffle的步驟

shuffle 分爲 分區, 排序, combiner, 分組,四個步驟

1map把key和value的值傳給shuffle的partition, … …partition按照一定的算法來給數據劃分區域然後傳給shuffle的soft (算法:對key 進行哈希,獲取到一個哈希值,用這個哈希值與reducetask的數量取餘。餘幾,這個數據就放在餘數編號的partition中。)

2 shuffle的soft把數據排序,然後發給combiner

3 combiner對數據進行局部聚合 然後傳給Shuffle的Group

4 Group:將相同key的key提取出來作爲唯一的key,將相同key對應的value獲取出來作爲value的list將數據傳給Reduce

圖片步驟

在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章