深入淺出介紹Hadoop

原創

2020-06-16 16:11

深入淺出介紹Hadoop

一、Hadoop的由來

1998年9月4日，一個影響世界的搜索引擎誕生於美國硅谷，就是家喻戶曉的Google。

而在美國還有一位工程師Doug Cuttting對搜索引擎同樣有着濃厚的興趣，憑藉着自己的一腔熱血研發出了一個基於JAVA開發環境來用於文本搜索的函數庫：Lucence，用於爲中小型軟件加入全文搜索。早期的Lucence被髮佈於Doug Cuttting的個人網站和SourceForge。

由於其開源及便捷的特質，Lucence在當時深受程序員的喜愛。

隨着Lucence的廣泛應用,Doug Cuttting的名氣也逐漸壯大，2001年，Doug Cuttting進入Apache軟件基金會研究開發。2004年，隨着Doug Cuttting對Lucence的不斷改進，他成功研製出了更加便捷的Nutch。

隨後Nutch在市場上勢頭迅猛，逐漸蓋過Lucence。甚至曾在硅谷引發一段Nutch的潮流。

隨着時間的推移，再好的搜索引擎都將面臨一個問題：存儲體及不足。不管是Google還是Doug Cuttting，對這個問題都一度束手無策。面對這個問題，Doug Cuttting率先開發出了NDFS，一個分佈式文件存儲系統。成功解決了這個令各大廠商頭疼的存儲問題。

隨着這一系列的工程，Doug Cuttting的名字已經響徹硅谷。2006年，Yahoo（雅虎）成功招安了Doug Cuttting。Doug Cuttting也不負衆望，同年對NDFS進行了一系列的再升級，並將其重命名爲Hadoop（NDFS也改名HDFS）。Doug Cuttting也成爲了大家都知道的Hadoop之父。
（Hadoop這個名字據說是Doug Cuttting兒子的黃色玩具大象的名字，就是Hadoop的logo上那隻enmmmmm）

不能全讓Yahoo佔了風頭，緊接着Google發表了一篇論文來介紹自己的BigTable有多牛逼的數據處理能力。Doug Cuttting也沒放棄，不緊不慢的在自己的hadoop中也引入了BigTable，並命名爲HBase。

然後就是Doug Cuttting和Google之間的激烈競爭。或許是由於Google人員衆多，總能快Doug Cuttting一步研發出新產品。堅持着你出啥我學啥的原則，Doug Cuttting也沒落後太多。但是正如現在這樣，Hadoop的核心部分也免不了有許多Google的影子。

2008年1月，hadoop晉升爲Apache軟件基金會的頂級項目。同年8月，Hadoop打破世界紀錄，用時20，成爲最快排序1TB數據的系統，擊敗Google。
此後便進入了Hadoop的高速發展期，直到今日。

到現在，幾乎所有主流廠商都圍繞Hadoop開發工具、開源軟件、商業化工具和技術服務。今年許多大型IT公司都明顯增加了Hadoop方面的投入。

二、Hadoop介紹

由上面的介紹中相信大家已經能看出，Hadoop的核心包括兩部分：存儲和計算。說白了就是HDFS（存儲）和MapReduce（計算框架）。且具有擴充力強、成本低、效率高及可靠性強的特點。

HDFS：一個高可靠、高吞吐量的分佈式文件系統。被設計用來使用在低廉的硬件上，適合超大數據集的應用程序，並以流的形式訪問。

MapReduce：一個分佈式的離線運算框架。
這裏引入一下YARN：一個新的MapReduce框架，一個資源管理調度系統。

三、Hadoop的優勢

1、存儲與計算節點可以動態增添；部分框架可以按需替換。

2、在MapReduce的思想下，Hadoop是並行工作的，以加快任務處理速度。

3、數據自動備份，副本丟失後自動回覆。

4、運行在廉價的機器上。

5、擅長處理PB級別的離線計算

我的Hadoop系列框架

本篇文章也就算是講解了Hadoop和它的歷史啦~~

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

深入淺出介紹Hadoop

深入淺出介紹Hadoop

一、Hadoop的由來

二、Hadoop介紹

三、Hadoop的優勢

我的Hadoop系列框架

HTTP URL 詳解

Python爬蟲||Xpath-以豆瓣電視劇爲例

Python爬蟲||BeautifulSoup4庫-以小豬短租爲例

Python爬蟲||正則表達式與re模塊-以貓眼電影爲例

深入淺出介紹Hadoop

Hadoop基本框架介紹

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結