MR -- Shuffle機制

原創

2020-02-26 23:09

1、流程詳解
Map 方法之後，Reduce 方法之前的數據處理過程被稱爲 Shuffle，具體流程爲：
(1) MapTask 收集 map() 方法輸出的 kv 對，放到內存緩衝區中。
(2) 從內存緩衝區不斷溢出本地磁盤文件，可能會溢出多個文件。
(3) 多個溢出文件會被合併成大的溢出文件。
(4) 在溢出過程及合併的過程中，都要調用 Partitioner 進行分區和針對 key 進行排序。
(5) ReduceTask 根據自己的分區號，去各個 MapTask 機器上取相應的結果分區數據。
(6) ReduceTask 會取到同一個分區的來自不同 MapTask 的結果文件，ReduceTask 會將這些文件再進行合併(歸併排序)。
(7) 合併成大文件後，Shuffle 的過程也就結束了，後面進入 ReduceTask 的邏輯運算過程(從文件中取出一個一個的鍵值對 Group，調用用戶自定義的 reduce() 方法)。

2、注意點
Shuffle 中的緩衝區大小會影響到 MapReduce 程序的執行效率，原則上說，緩衝區越大，磁盤 io 的次數越少，執行速度就越快。緩衝區的大小可以通過參數調整，參數：io.sort.mb 默認100M。

3、Shuffle 圖示

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

AI從入門到入門之手寫數字識別模型java方式Dense全連接神經網絡實現

前言：授人以魚不如授人以漁.先學會用，在學原理，在學創造，可能一輩子用不到這種能力，但是不能不具備這種能力。這篇文章主要是介紹算法入門Helloword之手寫圖片識別模型java中如何實現以及部分解釋。目前大家對於人工智能-機器學習-神經網

2024-04-19 23:17:21

百度智能雲千帆AppBuilder重磅升級！工作流編排正式上線！AssistantsAPI開放邀測！

>>【v0.5.3版本】上線時間：2024/4/14 關鍵發版信息：低代碼態：新增工作流，低代碼製作組件自定義組件：支持用戶自定義創建組件，並被Agent自動編排調用工作流框架：組件支持流式編排、調試和發佈工作

2024-04-19 11:29:41

數據結構筆記淺記（十二）雙向隊列

鏈表或數組作爲底層數據結構雙向鏈表的頭節點和尾節點視爲雙向隊列的隊首和隊尾，同時實現在兩端添加和刪除節點的功能使用環形數組來實現雙向隊列雙向隊列應用雙向隊列兼具棧與隊列的邏輯，因此它可以實現這兩者的所有應用場景，同時提供更高的自由

2024-04-18 23:39:23

Java 信號量（semaphore）搭配CountDownLatch 實現多線程處理循環內邏輯並限制創建線程數

在Java中，Semaphore和CountDownLatch都是用於線程同步的工具類，但它們的應用場景不同。Semaphore用於控制同時訪問某些資源的線程數量，而CountDownLatch用於等待一組線程完成他們的操作。如果我們想要

2024-04-20 00:54:02

Java中的Semaphore和CountDownLatch這兩個工具類的使用方法和實際應用場景

在現代的多線程編程中，Semaphore和CountDownLatch是兩個非常常見和重要的工具類，它們都可以用來實現多線程間的同步和互斥，提高程序的併發性能和效率。本文將詳細介紹Java中的Semaphore和CountDownLatch

2024-04-20 00:54:00

客戶案例｜權威答案！靈犀醫療引入 Zilliz Cloud，千萬級向量數據庫賦能醫學 AIGC 平臺

“醫療行業是一個信息差較大的行業，術語體系龐雜且知識門類較多，如何能搜索到最精準的醫學知識並採用最合理方式進行總結，這是我們醫學 AIGC 平臺 EviMed 所遇見的最主要的技術問題。傳統的數據庫和全文檢索方式難以滿足我們的

2024-04-19 13:02:34

權威答案！靈犀醫療引入 Zilliz Cloud，千萬級向量數據庫賦能醫學 AIGC 平臺

“醫療行業是一個信息差較大的行業，術語體系龐雜且知識門類較多，如何能搜索到最精準的醫學知識並採用最合理方式進行總結，這是我們醫學 AIGC 平臺 EviMed 所遇見的最主要的技術問題。傳統的數據庫和全文檢索方式難以滿足我們的技術要求，

2024-04-18 21:20:34

Create 2024 分論壇：百度大模型安全解決方案護航開發者一起創造未來

4月16日，百度Create AI開發者大會在深圳國際會展中心（寶安）舉行，大會以“創造未來”爲主題，匯聚了當前科技和產業革命中的開發者先鋒力量。自去年3月16日發佈知識增強大語言模型文心一言以來，百度不斷推動文心大模型的升級迭代，每一次版

2024-04-19 21:33:25

WhaleScheduler爲銀行業全信創環境打造統一調度管理平臺解決方案

項目背景數字金融是數字經濟的重要支撐和驅動力。近年來，我國針對數字金融的發展政策頻頻出臺，《金融科技發展規劃（2022-2025年）》、《“十四五”數字經濟發展規劃》、《關於銀行業保險業數字化轉型的指導意見》、《金融標準化“十四五”

2024-04-19 21:18:25

用戶行爲分析模型實踐（四）—— 留存分析模型

作者：vivo 互聯網大數據團隊- Wu Yonggang、Li Xiong 本文是vivo互聯網大數據團隊《用戶行爲分析模型實踐》系列文章第4篇 -留存分析模型。本文詳細介紹了留存分析模型的概念及基本原理，並

2024-04-19 11:26:00

探祕Python爬蟲技術：王者榮耀英雄圖片爬取

項目需求作爲一款風靡全球的MOBA遊戲，《王者榮耀》擁有衆多精美絕倫的英雄角色。玩家們對於自己心愛的英雄角色總是充滿着熱情和好奇。他們渴望收集自己喜歡的英雄的圖片，用於做壁紙、頭像或者分享給朋友。然而，要手動一張一張地下載這些圖片實

2024-04-19 23:26:23

寫給職場新人｜從迷茫到屢獲殊榮的技術人成長之路

在這個時代，技術的每一次飛躍都在重塑我們的工作方式。借Up技術人專欄活動寫了這篇文章，回望一下我和計算機打交道的這幾年，希望能給學生或職場新人們一些幫助。 1.錨定方向：學生生涯的一次探險如果用一個詞語概括我的本科階段，那大概就

2024-04-19 23:17:23

手動給docusaurus添加一個搜索

新版博客用docusaurus重構已經有些日子了，根據docusaurus的文檔上也申請了Algolia,想一勞永逸的解決博客的搜索問題。但是流水有意，落花無情。 algolia總是不給我回復，我只能對着algolia的申請頁面仰天長嘆。

2024-04-19 21:30:54

CTF中常見的四種python逆向

說在前面：什麼是pyc文件？ pyc是一種二進制文件，是由py文件經過編譯後，生成的文件，是一種byte code，py文件變成pyc文件後，加載的速度有所提高，pyc 文件是 Python 編譯過的字節碼文件。它是 Python 程

2024-04-19 10:46:19

數據結構筆記淺記（十一）單向隊列

「隊列 queue」是一種遵循先入先出規則的線性數據結構。顧名思義，隊列模擬了排隊現象，即新來的人不斷加入隊列尾部，而位於隊列頭部的人逐個離開。在 Python 中，我們一般將雙向隊列類 deque 當作隊列使用，雖然 queue.

2024-04-18 23:39:20

24小時熱門文章

最新文章

最新評論文章