Hadoop的簡單介紹

在現在大數據計算領域,開始普及使用spark,但是spark是爲了能獲取比Hadoop更高性能發展起來的。在spark的生態圈裏其中底部存儲可以利用Hadoop的底層存儲部件HDFS,在資源調度方面也可以使用Hadoop的資源調用部件YARN。

Hadoop的組件有基礎部分common,核心部分HDFS、MapReduce計算框架(用戶自己編寫處理框架)、YARN資源調用框架。另外還有許多依託於其之上的大數據框架,比如Hive、HBase、impala、pig等。如下圖所示:


圖片來自於網絡

common部分主要是Hadoop框架底層的一些底層組件,(包括數據IO、數據類型、序列化、安全的各個組件通用的部分)。
HDFS是底層負責存儲數據的技術,存放着需要被處理的海量數據,大數據的框架基本是依賴於hdfs存儲的。
Yarn是負責分配程序運行時需要的資源。
MapReduce是編寫的處理存儲在HDFS上的數據的代碼程序。

Hadoop的組件在設計時都是分佈式的主從架構,主節點負責管理、協調,從節點負責執行程序。
所有的數據類型都需要實現Writable接口,實現其中的write()方法和readFields()方法。


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章