Hadoop-3.0.0-alpha1搭建

Hadoop3.0.0的新特新
–最底版本的Java版本由Java7升級爲Java8
–HDFS支持糾刪碼技術(即EC技術,它的基本原理是把M份原始數據通過矩陣運算的方式,生成K份效驗數據。這樣在整個M+K份數據中,丟失任何K份都可以正常恢復。最常見的糾刪碼配置大概會給每一份原始數據生成0.5份冗餘效驗數據。這樣就會把整個集羣的存儲成本減半。糾刪碼的代價就是在出現故障的時候要重新執行矩陣運算來恢復數據。所以它的基本思路可以說就是計算換存儲。)
–YARN Timeline Service v.2
–重寫shell腳本
–Mapreduce task-level native優化
–支持多餘2個的NameNode,進一步增強集羣的可靠性。


先決條件
1、支持平臺
GNU/Linux目前被作爲開發以及生產平臺,Hadoop目前在GNU/Linux平臺上搭建2000多個節點的集羣。
Hadoop目前也支持Windows平臺。
2、所需軟件
Linux和Windows所需軟件包括:
1)Java選擇Sun公司發行的jdk1.8 ;
2)ssh 必須安裝並且保證 sshd一直運行,以便Hadoop 腳本管理遠端Hadoop守護進程。此外,在ssh安裝的基礎上,再安裝pdsh
3、安裝軟件
如果你的集羣沒有要求的軟件,你必須去安裝這些軟件。
例如,在CentOS上:
# yum -y install ssh
# yum -y install pdsh
下載Hadoop3.0鏈接地址如下
http://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-3.0.0-alpha1/hadoop-3.0.0-alpha1.tar.gz
1、準備啓動Hadoop集羣
解壓下載的Hadoop包,在Hadoop包中編輯etc/hadoop/hadoop-env.sh配置文件如下:
# set to the root of your Java installation
export JAVA_HOME=/usr/java/latest

嘗試如下命令:
$ bin/hadoop
2、本地模式
默認的,Hadoop被配置爲爲分佈式模式,作爲一個單個Java進程。這對debug調試很有用。
本地模式實例如下:

$ mkdir input
$ cp etc/hadoop/*.xml input
$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.0.0-alpha1.jar grep input output 'dfs[a-z.]+'
$ cat output/*

運行結果如下:
這裏寫圖片描述
3、僞分佈式模式
Hadoop也可以以爲分佈式的模式運行在單個節點上,其中Hadoop的守護進程運行在不同的Java進程中。
(1)配置
編輯etc/hadoop/core-site.xml如下:

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
    </property>
</configuration>

編輯etc/hadoop/hdfs-site.xml如下:

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
</configuration>

編輯etc/hadoop/yarn-site.xml如下:

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
    <property>
        <name>mapreduce.admin.user.env</name>
        <value>HADOOP_MAPRED_HOME=$HADOOP_COMMON_HOME</value>
    </property>
    <property>
        <name>yarn.app.mapreduce.am.env</name>
        <value>HADOOP_MAPRED_HOME=$HADOOP_COMMON_HOME</value>
    </property>
</configuration>

編輯etc/hadoop/mapred-site.xml如下:

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
    <property>
        <name>mapreduce.admin.user.env</name>
        <value>HADOOP_MAPRED_HOME=$HADOOP_COMMON_HOME</value>
    </property>
    <property>
        <name>yarn.app.mapreduce.am.env</name>
        <value>HADOOP_MAPRED_HOME=$HADOOP_COMMON_HOME</value>
    </property>
</configuration>

(2)配置ssh免密碼登錄

$ ssh-keygen -t rsa
$ ssh-copy-id localhost

驗證ssh免密碼登錄

$ ssh loclahost

(3)格式化NameNode

$ bin/hadoop namenode -format

(4)啓動HDFS

$ sbin/start-dfs.sh

(5)啓動YARN

$ sbin/start-yarn.sh

(6)通過jsp命令查看啓動的服務是否正常

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章