什麼是Hadoop?

1.Hadoop是什麼
        Hadoop原來是ApacheLucene下的一個子項目,它最初是從Nutch項目中分離出來的專門負責分佈式存儲以及分佈式運算的項目。用於海量數據的並行處理,簡單地說來,Hadoop是一個可以更容易開發和運行處理大規模數據的軟件平臺。hadoop的核心主要包含:HDFS 和 MapReduce HDFS是分佈式文件系統,用於分佈式存儲海量數據。 MapReduce是分佈式數據處理模型,本質是並行處理。

2.下面列舉hadoop主要的一些特點:

1 擴容能力(Scalable):能可靠地(reliably)存儲和處理千兆字節(PB)數據。

2 成本低(Economical):可以通過普通機器組成的服務器羣來分發以及處理數據。這些服務器羣總計可達數千個節點。

3 高效率(Efficient):通過分發數據,hadoop可以在數據所在的節點上並行地(parallel)處理它們,這使得處理非常的快速。

4 可靠性(Reliable):hadoop能自動地維護數據的多份複製,並且在任務失敗後能自動地重新部署(redeploy)計算任務。

3.Hadoop實現了一個分佈式文件系統(HadoopDistributedFileSystem),簡稱HDFS。

HDFS有着高容錯性(fault-tolerent)的特點,並且設計用來部署在低廉的(low-cost)硬件上。而且它提供高傳輸率(highthroughput)來訪問應用程序的數據,適合那些有着超大數據集(largedataset)的應用程序。HDFS放寬了(relax)POSIX的要求(requirements)這樣可以流的形式訪問(streamingaccess)文件系統中的數據。

4.Hadoop還實現了MapReduce分佈式計算模型。

MapReduce將應用程序的工作分解成很多小的工作小塊(smallblocksofwork)。HDFS爲了做到可靠性(reliability)創建了多份數據塊(datablocks)的複製(replicas),並將它們放置在服務器羣的計算節點中(computenodes),MapReduce就可以在它們所在的節點上處理這些數據了。

 

 

5.Hadoop用來做什麼

答:海量數據處理。。。似乎有點虛呵呵,我能想到的用hadoop的地方:
1、最簡單的,做個數據備份/文件歸檔的地方,這利用了hadoop海量數據的存儲能力
2、數據倉庫/數據挖掘:分析web日誌,分析用戶的行爲(如:用戶使用搜索時,在搜索結果中點擊第2頁的概率有多大)
3、搜索引擎:設計hadoop的初衷,就是爲了快速建立索引。
4、雲計算:據說,中國移動的大雲,就是基於hadoop的
5、研究:hadoop的本質就是分佈式計算,又是開源的。有很多思想值得借鑑。

       總之,你可以把hadoop看成是:分佈式計算框架(或系統、或平臺),可以說是用來做雲計算的,呵呵。(雲計算的本質就是:海量數據存儲/並行處理,即hadoop中的HDFS和MapReduce
 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章