深入淺出介紹Hadoop
一、Hadoop的由來
1998年9月4日,一個影響世界的搜索引擎誕生於美國硅谷,就是家喻戶曉的Google。
而在美國還有一位工程師Doug Cuttting對搜索引擎同樣有着濃厚的興趣,憑藉着自己的一腔熱血研發出了一個基於JAVA開發環境來用於文本搜索的函數庫:Lucence,用於爲中小型軟件加入全文搜索。早期的Lucence被髮佈於Doug Cuttting的個人網站和SourceForge。
由於其開源及便捷的特質,Lucence在當時深受程序員的喜愛。
隨着Lucence的廣泛應用,Doug Cuttting的名氣也逐漸壯大,2001年,Doug Cuttting進入Apache軟件基金會研究開發。2004年,隨着Doug Cuttting對Lucence的不斷改進,他成功研製出了更加便捷的Nutch。
隨後Nutch在市場上勢頭迅猛,逐漸蓋過Lucence。甚至曾在硅谷引發一段Nutch的潮流。
隨着時間的推移,再好的搜索引擎都將面臨一個問題:存儲體及不足。不管是Google還是Doug Cuttting,對這個問題都一度束手無策。面對這個問題,Doug Cuttting率先開發出了NDFS,一個分佈式文件存儲系統。成功解決了這個令各大廠商頭疼的存儲問題。
隨着這一系列的工程,Doug Cuttting的名字已經響徹硅谷。2006年,Yahoo(雅虎)成功招安了Doug Cuttting。Doug Cuttting也不負衆望,同年對NDFS進行了一系列的再升級,並將其重命名爲Hadoop(NDFS也改名HDFS)。Doug Cuttting也成爲了大家都知道的Hadoop之父。
(Hadoop這個名字據說是Doug Cuttting兒子的黃色玩具大象的名字,就是Hadoop的logo上那隻enmmmmm)
不能全讓Yahoo佔了風頭,緊接着Google發表了一篇論文來介紹自己的BigTable有多牛逼的數據處理能力。Doug Cuttting也沒放棄,不緊不慢的在自己的hadoop中也引入了BigTable,並命名爲HBase。
然後就是Doug Cuttting和Google之間的激烈競爭。或許是由於Google人員衆多,總能快Doug Cuttting一步研發出新產品。堅持着你出啥我學啥的原則,Doug Cuttting也沒落後太多。但是正如現在這樣,Hadoop的核心部分也免不了有許多Google的影子。
2008年1月,hadoop晉升爲Apache軟件基金會的頂級項目。同年8月,Hadoop打破世界紀錄,用時20,成爲最快排序1TB數據的系統,擊敗Google。
此後便進入了Hadoop的高速發展期,直到今日。
到現在,幾乎所有主流廠商都圍繞Hadoop開發工具、開源軟件、商業化工具和技術服務。今年許多大型IT公司都明顯增加了Hadoop方面的投入。
二、Hadoop介紹
由上面的介紹中相信大家已經能看出,Hadoop的核心包括兩部分:存儲和計算。說白了就是HDFS(存儲)和MapReduce(計算框架)。且具有擴充力強、成本低、效率高及可靠性強的特點。
HDFS:一個高可靠、高吞吐量的分佈式文件系統。被設計用來使用在低廉的硬件上,適合超大數據集的應用程序,並以流的形式訪問。
MapReduce:一個分佈式的離線運算框架。
這裏引入一下YARN:一個新的MapReduce框架,一個資源管理調度系統。
三、Hadoop的優勢
1、存儲與計算節點可以動態增添;部分框架可以按需替換。
2、在MapReduce的思想下,Hadoop是並行工作的,以加快任務處理速度。
3、數據自動備份,副本丟失後自動回覆。
4、運行在廉價的機器上。
5、擅長處理PB級別的離線計算
我的Hadoop系列框架
本篇文章也就算是講解了Hadoop和它的歷史啦~~