Hadoop小計

Hadoop這個東西之前就聽說過,但是,一直沒有用得上的地方,也就一直沒有去學它。現在,畢設要用上了,就打算好好學一下。今天(2014-3-24)開始折騰它,發現網上的資料真是多的不能再多了,同時,也是非常的亂。尤其,在針對不同的Hadoop版本上,可能是因爲Hadoop還在快速發展,學習資料方面還在跟進中,官方wiki好像都沒有完全將概念整理好。現在,整理整理我已經找到的資料。

前置要求

機器的要求

開發機器

4G內存是至少的,2G內存跑起來十分卡。

Hadoop集羣

官方討論

操作系統&Java要求

  1. Java 1.6.x or higher, preferably from Sun
  2. Linux and Windows are the supported operating systems, but BSD, Mac OS/X, and OpenSolaris are known to work. (Windows requires the installation of Cygwin). 

來自官方FAQ

版本

Hadoop版本

  1. 0.19.x-0.20.x
  2. 0.23.x
    • MapReduce2引入,MapReduce NextGen 又叫YARN又叫MRv2
    • ResourceManager、NodeManager引入,替代JobTracker、TaskTracker。早期版本的書中會提到後兩者,但現在實際上看到的是前兩者的概念。
  3. 1.x
  4. 2.2.x 我所採用的版本
  5. 2.3.x

HBase版本

官方給出的Hadoop和HBase的組合方式矩陣,看這裏

  1. HBase-0.92.x
  2. HBase-0.94.x
  3. HBase-0.96.0
  4. HBase-0.98.0(Hadoop-2.2.0,Hadoop-2.x)

Nutch版本

  1. Nutch 1.x: A well matured, production ready crawler. 1.x enables fine grained configuration, relying on Apache Hadoop™ data structures, which are great for batch processing.
  2. Nutch 2.x: An emerging alternative taking direct inspiration from 1.x, but which differs in one key area; storage is abstracted away from any specific underlying data store by using Apache Gora™ for handling object to persistent mappings. This means we can implement an extremely flexibile model/stack for storing everything (fetch time, status, content, parsed text, outlinks, inlinks, etc.) into a number of NoSQL storage solutions.

環境搭建

Hadoop搭建

  1. Standalone mode(獨立模式,開發調試使用,Hadoop剛下載下來時,默認的配置就是以這樣的方式運行的。)
  2. Pseudo-distributed mode(僞集羣模式,開發調試使用,搭建這種模式的資料,網上非常多。)
  3. Fully distributed mode(真集羣模式)

HBase搭建

  1. Standalone mode(獨立模式,官方文檔)
  2. Distributed mode(分佈式模式,官方文檔)

Eclipse插件

  1. 編譯hadoop 1.2.1 Hadoop-eclipse-plugin插件
  2. 編譯hadoop 2.x Hadoop-eclipse-plugin插件

資料

Hadoop書籍

從我找到書來看,好像沒有跟上最新的版本(穩定版2.2.0,最新版2.3.0)。

  1. Hadoop: The Definitive Guide Third Edition
  2. Hadoop Real-World Solutions Cookbook
  3. Hadoop in Action(這本書的講述方式比較適合人類正常的學習過程,完全從零開始,從一步步教你搭建集羣,再在上面寫程序。上面那兩本,一開始就假設了集羣已經搭建好了。唯一的問題是,Hadoop版本有點老(2010年寫的),它說的和我看到的有很多地方不一樣。作者沒說它是什麼版本的,估計是0.20.0左右的。)
  4. Pro Hadoop
  5. 官方書籍列表 2.x確實很少。

Hadoop相關論文

官方列表

Hadoop相關文章


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章