深入淺出介紹Hadoop

一、Hadoop的由來

1998年9月4日,一個影響世界的搜索引擎誕生於美國硅谷,就是家喻戶曉的Google。

而在美國還有一位工程師Doug Cuttting對搜索引擎同樣有着濃厚的興趣,憑藉着自己的一腔熱血研發出了一個基於JAVA開發環境來用於文本搜索的函數庫:Lucence,用於爲中小型軟件加入全文搜索。早期的Lucence被髮佈於Doug Cuttting的個人網站和SourceForge。

由於其開源及便捷的特質,Lucence在當時深受程序員的喜愛。

隨着Lucence的廣泛應用,Doug Cuttting的名氣也逐漸壯大,2001年,Doug Cuttting進入Apache軟件基金會研究開發。2004年,隨着Doug Cuttting對Lucence的不斷改進,他成功研製出了更加便捷的Nutch。

隨後Nutch在市場上勢頭迅猛,逐漸蓋過Lucence。甚至曾在硅谷引發一段Nutch的潮流。

隨着時間的推移,再好的搜索引擎都將面臨一個問題:存儲體及不足。不管是Google還是Doug Cuttting,對這個問題都一度束手無策。面對這個問題,Doug Cuttting率先開發出了NDFS,一個分佈式文件存儲系統。成功解決了這個令各大廠商頭疼的存儲問題。

隨着這一系列的工程,Doug Cuttting的名字已經響徹硅谷。2006年,Yahoo(雅虎)成功招安了Doug Cuttting。Doug Cuttting也不負衆望,同年對NDFS進行了一系列的再升級,並將其重命名爲Hadoop(NDFS也改名HDFS)。Doug Cuttting也成爲了大家都知道的Hadoop之父。
(Hadoop這個名字據說是Doug Cuttting兒子的黃色玩具大象的名字,就是Hadoop的logo上那隻enmmmmm)
在這裏插入圖片描述
不能全讓Yahoo佔了風頭,緊接着Google發表了一篇論文來介紹自己的BigTable有多牛逼的數據處理能力。Doug Cuttting也沒放棄,不緊不慢的在自己的hadoop中也引入了BigTable,並命名爲HBase。

然後就是Doug Cuttting和Google之間的激烈競爭。或許是由於Google人員衆多,總能快Doug Cuttting一步研發出新產品。堅持着你出啥我學啥的原則,Doug Cuttting也沒落後太多。但是正如現在這樣,Hadoop的核心部分也免不了有許多Google的影子。

2008年1月,hadoop晉升爲Apache軟件基金會的頂級項目。同年8月,Hadoop打破世界紀錄,用時20,成爲最快排序1TB數據的系統,擊敗Google。
此後便進入了Hadoop的高速發展期,直到今日。

到現在,幾乎所有主流廠商都圍繞Hadoop開發工具、開源軟件、商業化工具和技術服務。今年許多大型IT公司都明顯增加了Hadoop方面的投入。

二、Hadoop介紹

由上面的介紹中相信大家已經能看出,Hadoop的核心包括兩部分:存儲和計算。說白了就是HDFS(存儲)和MapReduce(計算框架)。且具有擴充力強、成本低、效率高及可靠性強的特點。

HDFS:一個高可靠、高吞吐量的分佈式文件系統。被設計用來使用在低廉的硬件上,適合超大數據集的應用程序,並以流的形式訪問。

MapReduce:一個分佈式的離線運算框架。
這裏引入一下YARN:一個新的MapReduce框架,一個資源管理調度系統。

三、Hadoop的優勢

1、存儲與計算節點可以動態增添;部分框架可以按需替換。

2、在MapReduce的思想下,Hadoop是並行工作的,以加快任務處理速度。

3、數據自動備份,副本丟失後自動回覆。

4、運行在廉價的機器上。

5、擅長處理PB級別的離線計算

我的Hadoop系列框架

在這裏插入圖片描述
本篇文章也就算是講解了Hadoop和它的歷史啦~~

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章