大數據學習初級入門教程(一) —— Hadoop 2.x 完全分佈式集羣的安裝、啓動和測試

大數據最基礎的就是數據的存儲和計算,而 Hadoop 就是爲存儲和計算而生,是最基礎的大數據處理工具。這篇簡單寫寫 Hadoop 2.x 的安裝,啓動和測試。

一、準備環境

大數據環境的部署,一般都是集羣,機器數量爲奇數,這裏以 5 臺機器爲例,操作系統爲 CentOS 6.9_x64;IP 分別爲 192.1688.220.19,192.1688.220.18,192.1688.220.11,192.1688.220.12,192.1688.220.13;Hadoop 的安裝包版本爲 hadoop-2.5.1_x64.tar.gz。

機器準備好之後,需要做下面幾件事:

1)讓各臺機器間網絡互通;

2)讓各臺機器的時間保持一致或接近,保證各個機器的時間同步,30s 以內就行,不一定一模一樣;

3)讓各臺機器間 SSH 互通;

4)讓各臺機器都安裝了 Java 環境;

5)修改各臺機器的主機名,分別爲 node19,node18,node11,node12,node13;

6)規劃節點:node19(namenode),node18(second namenode),node11(datanode),node12(datanode),node13(datanode)。

二、上傳解壓安裝包

爲了簡單期間,包直接放在 node19 機器的 /home 目錄下,上傳後解壓包即可。

三、配置 Java 環境變量

修改 /home/hadoop-2.5.1/etc/hadoop/hadoop-env.sh 中的 JAVA_HOME。

把:
export JAVA_HOME=${JAVA_HOME}
修改爲:
export JAVA_HOME=/usr/java/jdk1.7.0_79

四、配置接口及端口

配置主機名和數據傳輸的接口及端口,fsimage 存放路徑,修改 /home/hadoop-2.5.1/etc/hadoop/core-site.xml。

把:
<configuration>
</configuration>
修改爲:
<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://node19:9000</value>
    </property>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/opt/hadoop/hadoop-2.5</value>
    </property>
</configuration>

五、配置 Sencondary 的協議地址和端口

配置 namendoe 的 sencondary 的協議地址和端口,修改 /home/hadoop-2.5.1/etc/hadoop/hdfs-site.xml。

把:
<configuration>
</configuration>
修改爲:
<configuration>
    <property>
        <name>dfs.namenode.secondary.http-address</name>
        <value>node18:50090</value>
    </property>
    <property>
        <name>dfs.namenode.secondary.https-address</name>
        <value>node18:50091</value>
    </property>
</configuration>

六、配置 datanode 的主機

修改 /home/hadoop-2.5.1/etc/hadoop/slaves。

node11
node12
node13

七、配置 second namenode 主機

修改 /home/hadoop-2.5.1/etc/hadoop/masters,如果沒有該文件可以自己創建。

node18

八、拷貝安裝包到其它機器

拷貝上面配置好的 hadoop 目錄到其它機器上。

scp -r hadoop-2.5.1/ root@node18:/home/
scp -r hadoop-2.5.1/ root@node11:/home/
scp -r hadoop-2.5.1/ root@node12:/home/
scp -r hadoop-2.5.1/ root@node13:/home/

九、檢查 hosts 配置

保證兩臺 namenode、三臺 datanode 的 hosts 文件一致。

192.168.220.11 node11
192.168.220.12 node12
192.168.220.13 node13
192.168.220.18 node18
192.168.220.19 node19

十、配置 hadoop 環境變量

export HADOOP_HOME=/home/hadoop-2.5.1
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

到此,配置基本搞定,可以開始啓動集羣工作。

十一、格式化集羣

在 namenode 節點上執行格式化命令

hdfs namenode -format

作用是:/opt/hadoop/hadoop-2.5/dfs/name/current 下創建了 fsimage 文件。

十二、啓動集羣

start-dfs.sh 

log日誌如下:

Starting namenodes on [node19]
node19: starting namenode, logging to /home/hadoop-2.5.1/logs/hadoop-root-namenode-node19.out
node13: starting datanode, logging to /home/hadoop-2.5.1/logs/hadoop-root-datanode-node13.out
node11: starting datanode, logging to /home/hadoop-2.5.1/logs/hadoop-root-datanode-node11.out
node12: starting datanode, logging to /home/hadoop-2.5.1/logs/hadoop-root-datanode-node12.out
Starting secondary namenodes [node18]
node18: starting secondarynamenode, logging to /home/hadoop-2.5.1/logs/hadoop-root-secondarynamenode-node18.out

十三、測試是否啓動成功

瀏覽器訪問 namenode 節點的監控頁面,訪問路徑爲:http://192.168.220.19:50070/,如果出現如下頁面,說明集羣啓動成功。

同理,可以訪問 namenode secondary 監控頁面:http://192.168.220.18:50090/。

十四、停止集羣

stop-dfs.sh

日誌如下:

Stopping namenodes on [node19]
node19: stopping namenode
node12: no datanode to stop
node13: no datanode to stop
node11: no datanode to stop
Stopping secondary namenodes [node18]
node18: stopping secondarynamenode

基礎的安裝和配置到此結束~

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章