從零開始學Hadoop----初識

      我們知道大數據的時代已經到來,之前就給大家分享了應對大數據的非關係型數據庫redis。今天,我們再來看看處理和分析海量數據的神器——hadoop。

一、是什麼

1、概念

      Hadoop是一個開源的框架,可編寫和運行分佈式應用處理大規模數據,是專爲離線和大規模數據分析而設計的,並不適合那種對幾個記錄隨機讀寫的在線事務處理模式。
      Hadoop 是以一種可靠、高效、可伸縮的方式進行處理的。Hadoop 是可靠的,因爲它假設計算元素和存儲會失敗,因此它維護多個工作數據副本,確保能夠針對失敗的節點重新分佈處理。Hadoop 是高效的,因爲它以並行的方式工作,通過並行處理加快處理速度。Hadoop 還是可伸縮的,能夠處理 PB 級數據。

2、核心

      Hadoop的核心就是HDFS和MapReduce,而兩者只是理論基礎,不是具體可使用的高級應用,Hadoop旗下有很多經典子項目,比如HBase、Hive等,這些都是基於HDFS和MapReduce發展出來的。要想了解Hadoop,就必須知道HDFS和MapReduce是什麼。

  • HDFS

      HDFS(Hadoop Distributed File System,Hadoop分佈式文件系統),它是一個高度容錯性的系統,適合部署在廉價的機器上。HDFS能提供高吞吐量的數據訪問,適合那些有着超大數據集(large data set)的應用程序。

這裏寫圖片描述

  • MapReduce

      Mapreduce是一個計算框架,一個處理分佈式海量數據的軟件框架及計算集羣。

這裏寫圖片描述

二、幹什麼

1、應用

搜索引擎(Doug Cutting  設計Hadoop的初衷,爲了針對大規模的網頁快速建立索引)。
大數據存儲,利用Hadoop的分佈式存儲能力,例如數據備份、數據倉庫等。
大數據處理,利用Hadoop的分佈式處理能力,例如數據挖掘、數據分析等。
科學研究,Hadoop是一種分佈式的開源框架,對於分佈式計算有很大程度地參考價值。

2、優缺點

  • 優點
高可靠性。
Hadoop按位存儲和處理數據的能力值得人們信賴。
高擴展性。
Hadoop是在可用的計算機集簇間分配數據並完成計算任務的,這些集簇可以方便地擴展到數以千計的節點中。
高效性。
Hadoop能夠在節點之間動態地移動數據,並保證各個節點的動態平衡,因此處理速度非常快。
高容錯性。
Hadoop能夠自動保存數據的多個副本,並且能夠自動將失敗的任務重新分配。
低成本。
與一體機、商用數據倉庫以及QlikView、Yonghong Z-Suite等數據集市相比,hadoop是開源的,項目的軟件成本因此會大大降低。
  • 缺點
不適合低延遲數據訪問。
無法高效存儲大量小文件。
不支持多用戶寫入及任意修改文件。

總結:

      今天我們簡單認識了一下Hadoop,知道了hadoop在大數據處理中的重要作用,以後我們將逐步學習hadoop,希望對喜歡hadoop的人有所幫助。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章