Hadoop的MapReduce框架中map和reduce的各自任務(能力工場--整理)

原創

2019-02-22 23:38

map處理任務

原始文件得到的鍵值對>>>>>map的形參

1.1 讀取輸入文件,把每一行解析成鍵值對(注意鍵值對key的值,行號),每一個鍵值對調用一次map函數

1.2 對傳入的鍵值對,覆蓋map函數,實現自己的邏輯,處理鍵值對,輸出新的鍵值對(邏輯程序員自己實現,注意上下文變量),每一行產生新的鍵值對;

1.3 對鍵值對進行分區,根據鍵值對分區(key)(目前所有的鍵值對在一個區)

1.4 對不同的分區數據排序分組,把相同key的value方法放入一個集合中

1.5 (可選)規約,大的數據變成小的數據

reduce處理任務

分組後的map輸出(如何確定)>>>>>reduce形參

2.1 對多個map任務的輸出按照不同分區,通過網絡copy到不同的reduce節點(分區的個數...)

2.2 在reduce節點,對多個map傳來的數據進行合併排序,得到新的鍵值對

2.3 實現自己的reduce函數,實現自己的業務邏輯,處理鍵值對,得到新的鍵值對

2.4 對reduce輸出的鍵值對,寫入到HDFS中.

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.