從零開始學Hadoop----初識

原創

2020-07-05 21:56

我們知道大數據的時代已經到來，之前就給大家分享了應對大數據的非關係型數據庫redis。今天，我們再來看看處理和分析海量數據的神器——hadoop。

一、是什麼

1、概念

Hadoop是一個開源的框架，可編寫和運行分佈式應用處理大規模數據，是專爲離線和大規模數據分析而設計的，並不適合那種對幾個記錄隨機讀寫的在線事務處理模式。
Hadoop 是以一種可靠、高效、可伸縮的方式進行處理的。Hadoop 是可靠的，因爲它假設計算元素和存儲會失敗，因此它維護多個工作數據副本，確保能夠針對失敗的節點重新分佈處理。Hadoop 是高效的，因爲它以並行的方式工作，通過並行處理加快處理速度。Hadoop 還是可伸縮的，能夠處理 PB 級數據。

2、核心

Hadoop的核心就是HDFS和MapReduce，而兩者只是理論基礎，不是具體可使用的高級應用，Hadoop旗下有很多經典子項目，比如HBase、Hive等，這些都是基於HDFS和MapReduce發展出來的。要想了解Hadoop，就必須知道HDFS和MapReduce是什麼。

HDFS

HDFS（Hadoop Distributed File System，Hadoop分佈式文件系統），它是一個高度容錯性的系統，適合部署在廉價的機器上。HDFS能提供高吞吐量的數據訪問，適合那些有着超大數據集（large data set）的應用程序。

MapReduce

Mapreduce是一個計算框架，一個處理分佈式海量數據的軟件框架及計算集羣。

二、幹什麼

1、應用

搜索引擎（Doug Cutting  設計Hadoop的初衷，爲了針對大規模的網頁快速建立索引）。

大數據存儲，利用Hadoop的分佈式存儲能力，例如數據備份、數據倉庫等。

大數據處理，利用Hadoop的分佈式處理能力，例如數據挖掘、數據分析等。

科學研究，Hadoop是一種分佈式的開源框架，對於分佈式計算有很大程度地參考價值。

2、優缺點

優點

高可靠性。
Hadoop按位存儲和處理數據的能力值得人們信賴。

高擴展性。
Hadoop是在可用的計算機集簇間分配數據並完成計算任務的，這些集簇可以方便地擴展到數以千計的節點中。

高效性。
Hadoop能夠在節點之間動態地移動數據，並保證各個節點的動態平衡，因此處理速度非常快。

高容錯性。
Hadoop能夠自動保存數據的多個副本，並且能夠自動將失敗的任務重新分配。

低成本。
與一體機、商用數據倉庫以及QlikView、Yonghong Z-Suite等數據集市相比，hadoop是開源的，項目的軟件成本因此會大大降低。

缺點

不適合低延遲數據訪問。

無法高效存儲大量小文件。

不支持多用戶寫入及任意修改文件。

總結：

今天我們簡單認識了一下Hadoop，知道了hadoop在大數據處理中的重要作用，以後我們將逐步學習hadoop，希望對喜歡hadoop的人有所幫助。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

從零開始學Hadoop----初識

一、是什麼

1、概念

2、核心

二、幹什麼

1、應用

2、優缺點

總結：

使用neovim打造go ide(支持代碼跳轉, 代碼補全, 實時語法檢查)

挑戰程序設計競賽 2.3章習題 poj 3046 Ant Counting

Shell/Python中的用戶名獲取

大數據時代的到來

春風襲來之——揮去的2015

阿里架構之旅（三）——動物園管理者zookeeper

Linux學習總結——實踐

從零開始學Hadoop----淺析HDFS（三）

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結