Hadoop十年解讀與發展預測

Hadoop於2006年1月28日誕生,成立的一開始,“Hadoop”這個單詞只代表了兩個組件——HDFS和MapReduce。到現在,這個單詞代表的是“核心”(即Core Hadoop項目)以及與之相關的一個不斷成長的生態系統。這個和Linux非常類似,都是由一個核心和一個生態系統組成。下圖展示了Hadoop最近十年的發展:

Hadoop編年史


•2002年10月,Doug Cutting和Mike Cafarella創建了開源網頁爬蟲項目Nutch。
•2003年10月,Google發表Google File System論文。
•2004年7月,Doug Cutting和Mike Cafarella在Nutch中實現了類似GFS的功能,即後來HDFS的前身。
•2004年10月,Google發表了MapReduce論文。
•2005年2月,Mike Cafarella在Nutch中實現了MapReduce的最初版本。
•2005年12月,開源搜索項目Nutch移植到新框架,使用MapReduce和NDFS(Nutch Distributed File System )來運行,在20個節點穩定運行。
•2006年1月,Doug Cutting加入雅虎,Yahoo!提供一個專門的團隊和資源將Hadoop發展成一個可在網絡上運行的系統。
•2006年2月,Apache Hadoop項目正式啓動以支持MapReduce和HDFS的獨立發展。
•2006年2月,Yahoo!的網格計算團隊採用Hadoop。
•2006年3月,Yahoo!建設了第一個Hadoop集羣用於開發。
•2006年4月,第一個Apache Hadoop發佈。
•2006年4月,在188個節點上(每個節點10GB)運行排序測試集需要47.9個小時。
•2006年5月,Yahoo!建立了一個300個節點的Hadoop研究集羣。
•2006年5月,在500個節點上運行排序測試集需要42個小時(硬件配置比4月的更好)。
•2006年11月,研究集羣增加到600個節點。
•2006年11月,Google發表了Bigtable論文,這最終激發了HBase的創建。
•2006年12月,排序測試集在20個節點上運行1.8個小時,100個節點上運行3.3小時,500個節點上運行5.2小時,900個節點上運行7.8個小時。
•2007年1月,研究集羣增加到900個節點。
•2007年4月,研究集羣增加到兩個1000個節點的集羣。
•2007年10月,第一個Hadoop用戶組會議召開,社區貢獻開始急劇上升。
•2007年,百度開始使用Hadoop做離線處理。
•2007年,中國移動開始在“大雲”研究中使用Hadoop技術。
•2008年,淘寶開始投入研究基於Hadoop的系統——雲梯,並將其用於處理電子商務相關數據。

•2008年1月,Hadoop成爲Apache頂級項目。
•2008年2月,Yahoo!運行了世界上最大的Hadoop應用,宣佈其搜索引擎產品部署在一個擁有1萬個內核的Hadoop集羣上。
•2008年4月,在900個節點上運行1TB排序測試集僅需209秒,成爲世界最快。
•2008年6月,Hadoop的第一個SQL框架——Hive成爲了Hadoop的子項目。
•2008年7月,Hadoop打破1TB數據排序基準測試記錄。Yahoo!的一個Hadoop集羣用209秒完成1TB數據的排序 ,比上一年的紀錄保持者保持的297秒快了將近90秒。
•2008年8月,第一個Hadoop商業化公司Cloudera成立。
•2008年10月,研究集羣每天裝載10TB的數據。
•2008年11月,Apache Pig的最初版本發佈。
•2009年3月,17個集羣總共24000臺機器。
•2009 年3月,Cloudera推出世界上首個Hadoop發行版——CDH(Cloudera's Distribution including Apache Hadoop)平臺,完全由開放源碼軟件組成。
•2009年4月,贏得每分鐘排序,59秒內排序500GB(在1400個節點上)和173分鐘內排序100TB數據(在3400個節點上)。
•2009年5月,Yahoo的團隊使用Hadoop對1 TB的數據進行排序只花了62秒時間。
•2009年6月,Cloudera的工程師Tom White編寫的《Hadoop權威指南》初版出版,後被譽爲Hadoop聖經。
•2009年7月 ,Hadoop Core項目更名爲Hadoop Common;
•2009年7月 ,MapReduce 和 Hadoop Distributed File System (HDFS) 成爲Hadoop項目的獨立子項目。
•2009年7月 ,Avro 和 Chukwa 成爲Hadoop新的子項目。
•2009年8月,Hadoop創始人Doug Cutting加入Cloudera擔任首席架構師。
•2009年10月,首屆Hadoop World大會在紐約召開。
•2010年5月 ,Avro脫離Hadoop項目,成爲Apache頂級項目。
•2010年5月 ,HBase脫離Hadoop項目,成爲Apache頂級項目。
•2010年5月,IBM提供了基於Hadoop 的大數據分析軟件——InfoSphere BigInsights,包括基礎版和企業版。
•2010年9月,Hive( Facebook) 脫離Hadoop,成爲Apache頂級項目。
•2010年9月,Pig脫離Hadoop,成爲Apache頂級項目。
•2010年-2011年,擴大的Hadoop社區忙於建立大量的新組件(Crunch,Sqoop,Flume,Oozie等)來擴展Hadoop的使用場景和可用性。
•2011年1月,ZooKeeper 脫離Hadoop,成爲Apache頂級項目。
•2011年3月,Apache Hadoop獲得Media Guardian Innovation Awards 。
•2011年3月, Platform Computing 宣佈在它的Symphony軟件中支持Hadoop MapReduce API。
•2011年5月,Mapr Technologies公司推出分佈式文件系統和MapReduce引擎——MapR Distribution for Apache Hadoop。
•2011年5月,HCatalog 1.0發佈。該項目由Hortonworks 在2010年3月份提出,HCatalog主要用於解決數據存儲、元數據的問題,主要解決HDFS的瓶頸,它提供了一個地方來存儲數據的狀態信息,這使得 數據清理和歸檔工具可以很容易的進行處理。
•2011年4月,SGI(Silicon Graphics International)基於SGI Rackable和CloudRack服務器產品線提供Hadoop優化的解決方案。
•2011年5月,EMC爲客戶推出一種新的基於開源Hadoop解決方案的數據中心設備——GreenPlum HD,以助其滿足客戶日益增長的數據分析需求並加快利用開源數據分析軟件。Greenplum是EMC在2010年7月收購的一家開源數據倉庫公司。
•2011年5月,在收購了Engenio之後, NetApp推出與Hadoop應用結合的產品E5400存儲系統。
•2011年6月,Calxeda公司發起了“開拓者行動”,一個由10家軟件公司組成的團隊將爲基於Calxeda即將推出的ARM系統上芯片設計的服務器提供支持。併爲Hadoop提供低功耗服務器技術。
•2011年6月,數據集成供應商Informatica發佈了其旗艦產品,產品設計初衷是處理當今事務和社會媒體所產生的海量數據,同時支持Hadoop。
•2011年7月,Yahoo!和硅谷風險投資公司 Benchmark Capital創建了Hortonworks 公司,旨在讓Hadoop更加可靠,並讓企業用戶更容易安裝、管理和使用Hadoop。
•2011年8月,Cloudera公佈了一項有益於合作伙伴生態系統的計劃——創建一個生態系統,以便硬件供應商、軟件供應商以及系統集成商可以一起探索如何使用Hadoop更好的洞察數據。
•2011年8月,Dell與Cloudera聯合推出Hadoop解決方案——Cloudera Enterprise。Cloudera Enterprise基於Dell PowerEdge C2100機架服務器以及Dell PowerConnect 6248以太網交換機。
•2012年3月,企業必須的重要功能HDFS NameNode HA被加入Hadoop主版本。
•2012年8月,另外一個重要的企業適用功能YARN成爲Hadoop子項目。
•2012年10月,第一個Hadoop原生MPP查詢引擎Impala加入到了Hadoop生態圈。
•2014年2月,Spark逐漸代替MapReduce成爲Hadoop的缺省執行引擎,併成爲Apache基金會頂級項目。
•2015年2月,Hortonworks和Pivotal抱團提出“Open Data Platform”的倡議,受到傳統企業如Microsoft、IBM等企業支持,但其它兩大Hadoop廠商Cloudera和MapR拒絕參與。
•2015年10月,Cloudera公佈繼HBase以後的第一個Hadoop原生存儲替代方案——Kudu。
•2015年12月,Cloudera發起的Impala和Kudu項目加入Apache孵化器。

原文地址:https://www.cnblogs.com/shijiaoyun/p/5778025.html

                  http://www.raincent.com/content-85-6023-2.html

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章