Hadoop的MapReduce框架中map和reduce的各自任務(能力工場--整理)

map處理任務

原始文件得到的鍵值對>>>>>map的形參

1.1 讀取輸入文件,把每一行解析成鍵值對(注意鍵值對key的值,行號),每一個鍵值對調用一次map函數


1.2 對傳入的鍵值對,覆蓋map函數,實現自己的邏輯,處理鍵值對,輸出新的鍵值對(邏輯程序員自己實現,注意上下文變量),每一行產生新的鍵值對;


1.3 對鍵值對進行分區,根據鍵值對分區(key)(目前所有的鍵值對在一個區)


1.4 對不同的分區數據排序分組,把相同key的value方法放入一個集合中


1.5 (可選)規約,大的數據變成小的數據




reduce處理任務

分組後的map輸出(如何確定)>>>>>reduce形參

2.1 對多個map任務的輸出按照不同分區,通過網絡copy到不同的reduce節點(分區的個數...)


2.2 在reduce節點,對多個map傳來的數據進行合併排序,得到新的鍵值對


2.3 實現自己的reduce函數,實現自己的業務邏輯,處理鍵值對,得到新的鍵值對


2.4 對reduce輸出的鍵值對,寫入到HDFS中.


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章