大數據-Hadoop-MapReduce (一) 第一性原理

Hadoop-MapReduce的第一性原理

一句話理解: 在hdfs的基礎上,可以把超過PB級別的日誌文件(一般爲文本文件),以Map的方式逐行處理形成 Map<A,1>
Map<A,2> Map<B,1> 經過非常的牛B的Shuffer算法按key形成集合,
再將集合進行Reduce運算的東東.

MapReduce經典原理圖(WordCount).單詞計算



如圖所示,

1.出現文本 input

2.逐行分解
3.Mapper運算爲 <key,value>
4.牛B的shuffer把這些Map按key排序成了 一堆相同Key的集合.
5.對這些集合進行Reduce計算

轉載請註明出處,謝謝!



發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章