map處理任務
原始文件得到的鍵值對>>>>>map的形參
1.1 讀取輸入文件,把每一行解析成鍵值對(注意鍵值對key的值,行號),每一個鍵值對調用一次map函數
1.2 對傳入的鍵值對,覆蓋map函數,實現自己的邏輯,處理鍵值對,輸出新的鍵值對(邏輯程序員自己實現,注意上下文變量),每一行產生新的鍵值對;
1.3 對鍵值對進行分區,根據鍵值對分區(key)(目前所有的鍵值對在一個區)
1.4 對不同的分區數據排序分組,把相同key的value方法放入一個集合中
1.5 (可選)規約,大的數據變成小的數據
reduce處理任務
分組後的map輸出(如何確定)>>>>>reduce形參
2.1 對多個map任務的輸出按照不同分區,通過網絡copy到不同的reduce節點(分區的個數...)
2.2 在reduce節點,對多個map傳來的數據進行合併排序,得到新的鍵值對
2.3 實現自己的reduce函數,實現自己的業務邏輯,處理鍵值對,得到新的鍵值對
2.4 對reduce輸出的鍵值對,寫入到HDFS中.