hadoop 3節點高可用分佈式安裝

1、先對即將安裝的服務進行規劃

Ip	host	安裝軟件	進程
10.10.10.5	master	hadoop、zookeeper	NameNode
DFSZKFailoverController
JournalNode
DataNode
ResourceManager
jobHistoryServer
NodeManager
10.10.10.6	slave1	hadoop、zookeeper	NameNode
DFSZKFailoverController
JournalNode
dataNode
ResourceManager
NodeManager
QuoruPeerMain
10.10.10.6	slave2	hadoop、zookeeper	JournalNode
DataNode
NodeManager
QuorumPeerMain

環境準備

關閉防火牆

systemctl stop iptables.service

systemctl disable iptables.service

1、上傳安裝包 hadoop-2.6.0-cdh5.16.2.tar.gz zookeeper-3.4.5-cdh5.16.2.tar.gz 到 /opt/soft 目錄下

2、設置主機名

master:

hostname master

vi /etc/sysconfig/network

slave1:

hostname slave1

slave2:

hostname slave2

配置ip 和hostname 的映射關係

vim cat /etc/hosts

通過將修改後的文件發到slave1 和slave2

scp /etc/hosts root@slave1:/etc/

scp /etc/hosts root@slave2:/etc/

我在三臺服務上配置了互信，因此可以直接發送，若不能直接發送，可百度看看互信怎麼配置

3、配置jdk 環境 hadoop zookeeper

如圖我的jdk jar 包解壓的文件在 /usr/local/jdk 、hadoop:/opt/soft2/hadoop zookeeper：/opt/soft2/zookeeper

4、修改zookeeper 配置

cd /opt/soft2/zookeeper/conf

cp zoo_sample.cfg zoo.cfg

vim zoo.cfg

主要修改dataDir，zk 存放數據的路徑

mkdir /opt/soft2/zookeeper/zkData

使用 scp -r zookeeper slave1:/opt/soft2/

使用 scp -r zookeeper slave2:/opt/soft2/

將zookeeper 文件整個拷貝到其餘節點

在每個節點data目錄中根據根據配置文件的

master中 echo 1 > /opt/soft2/zookeeper/zkData/myid

slave1中 echo 2 > /opt/soft2/zookeeper/zkData/myid

slave2中 echo 3 > /opt/soft2/zookeeper/zkData/myid

安裝hadoop

修改hadoop 的配置文件

cd /opt/soft2/hadoop/etc/hadoop

vim hadoop-env.sh

配置jdk 環境

配置hadoop的核心配置

vim core-site.xml

<name>fs.defaultFS</name>

<value>hdfs://mycluster</value>

</property>

<name>fs.trash.checkpoint.interval</name>

</property>

<name>fs.trash.interval</name>

</property>

<name>hadoop.tmp.dir</name>

<value>/opt/soft2/hadoop/data</value>

</property>

<name>ha.zookeeper.quorum</name>

<value>master:2181,slave1:2181,slave2:2181</value>

</property>

<name>ha.zookeeper.session-timeout.ms</name>

</property>

<name>hadoop.proxyuser.hadoop.hosts</name>

</property>

<name>hadoop.proxyuser.hadoop.groups</name>

</property>

<name>io.compression.codecs</name>

<value>org.apache.hadoop.io.compress.GzipCodec,

org.apache.hadoop.io.compress.DefaultCodec,

org.apache.hadoop.io.compress.BZip2Codec,

org.apache.hadoop.io.compress.SnappyCodec

</value>

</property>

</configuration>

vim hdfs-site.xml 配置hdfs

<name>dfs.permissions.superusergroup</name>

<value>hadoop</value>

</property>

<name>dfs.webhdfs.enabled</name>

</property>

<name>dfs.namenode.name.dir</name>

<value>/opt/soft2/hadoop/data/dfsname</value>

<description> namenode 存放name table(fsimage)本地目錄（需要修改）</description>

</property>

<name>dfs.namenode.edits.dir</name>

<value>${dfs.namenode.name.dir}</value>

<description>namenode粗放 transaction file(edits)本地目錄（需要修改）</description>

</property>

<name>dfs.datanode.data.dir</name>

<value>/opt/soft2/hadoop/data/dfsdata</value>

<description>datanode存放block本地目錄（需要修改）</description>

</property>

<name>dfs.replication</name>

</property>

<name>dfs.blocksize</name>

</property>

</property>

<name>dfs.blocksize</name>

</property>

<name>dfs.nameservices</name>

<value>mycluster</value>

</property>

<name>dfs.ha.namenodes.mycluster</name>

</property>

<name>dfs.namenode.rpc-address.mycluster.nn1</name>

<value>master:8020</value>

</property>

<name>dfs.namenode.rpc-address.mycluster.nn2</name>

<value>slave1:8020</value>

</property>

<name>dfs.namenode.http-address.mycluster.nn1</name>

<value>master:50070</value>

</property>

<name>dfs.namenode.http-address.ruozeclusterg10.nn2</name>

<value>ruozedata002:50070</value>

</property>

<name>dfs.journalnode.http-address</name>

</property>

<name>dfs.journalnode.rpc-address</name>

</property>

<name>dfs.namenode.shared.edits.dir</name>

<value>qjournal://master:8485;slave1:8485;slave2:8485/mycluster</value>

</property>

<name>dfs.journalnode.edits.dir</name>

<value>/home/hadoop/data/dfs/jn</value>

</property>

<name>dfs.client.failover.proxy.provider.ruozeclusterg10</name>

<value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value>

</property>

<name>dfs.ha.fencing.methods</name>

<value>sshfence</value>

</property>

<name>dfs.ha.fencing.ssh.private-key-files</name>

<value>/home/hadoop/.ssh/id_rsa</value>

</property>

<name>dfs.ha.fencing.ssh.connect-timeout</name>

</property>

<name>dfs.ha.automatic-failover.enabled</name>

</property>

<name>dfs.hosts</name>

<value>/opt/soft2/hadoop/etc/hadoop/slaves</value>

</property>

</configuration>

修改mapred-site.xml

配置中不存在該配置

cp mapred-site.xml.template mapred-site.xml

vim mapred-site.xml

<name>mapreduce.framework.name</name>

</property>

<name>mapreduce.jobhistory.address</name>

<value>master:10020</value>

</property>

<name>mapreduce.jobhistory.webapp.address</name>

<value>slave1:19888</value>

</property>

<name>mapreduce.map.output.compress</name>

</property>

<name>mapreduce.map.output.compress.codec</name>

<value>org.apache.hadoop.io.compress.SnappyCodec</value>

</property>

</configuration>

vim slaves 將下列添加進去

master

slave1

slave2

vim yarn-env.sh

vim yarn-site.xml

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle</value>

</property>

<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>

<value>org.apache.hadoop.mapred.ShuffleHandler</value>

</property>

<name>yarn.nodemanager.localizer.address</name>

<description>Address where the localizer IPC is.</description>

</property>

<name>yarn.nodemanager.webapp.address</name>

<description>NM Webapp address.</description>

</property>

<name>yarn.resourcemanager.connect.retry-interval.ms</name>

</property>

<name>yarn.resourcemanager.ha.enabled</name>

</property>

<name>yarn.resourcemanager.ha.automatic-failover.enabled</name>

</property>

<name>yarn.resourcemanager.ha.automatic-failover.embedded</name>

</property>

<name>yarn.resourcemanager.cluster-id</name>

<value>yarn-cluster</value>

</property>

<name>yarn.resourcemanager.ha.rm-ids</name>

</property>

<!--這裏RM主備結點需要單獨指定,（可選）

<name>yarn.resourcemanager.ha.id</name>

</property>

-->

<name>yarn.resourcemanager.scheduler.class</name>

<value>org.apache.hadoop.yarn.server.resourcemanager.scheduler.fair.FairScheduler</value>

</property>

<name>yarn.resourcemanager.recovery.enabled</name>

</property>

<name>yarn.app.mapreduce.am.scheduler.connection.wait.interval-ms</name>

</property>

<name>yarn.resourcemanager.store.class</name>

<value>org.apache.hadoop.yarn.server.resourcemanager.recovery.ZKRMStateStore</value>

</property>

<name>yarn.resourcemanager.zk-address</name>

<value>master:2181,slave1:2181,slave2:2181</value>

</property>

<name>yarn.resourcemanager.zk.state-store.address</name>

<value>master:2181,slave1:2181,slave2:2181</value>

</property>

<name>yarn.resourcemanager.address.rm1</name>

<value>master:23140</value>

</property>

<name>yarn.resourcemanager.address.rm2</name>

<value>slave1:23140</value>

</property>

<name>yarn.resourcemanager.scheduler.address.rm1</name>

<value>master:23130</value>

</property>

<name>yarn.resourcemanager.scheduler.address.rm2</name>

<value>slave1:23130</value>

</property>

<name>yarn.resourcemanager.admin.address.rm1</name>

<value>master:23141</value>

</property>

<name>yarn.resourcemanager.admin.address.rm2</name>

<value>slave1:23141</value>

</property>

<name>yarn.resourcemanager.resource-tracker.address.rm1</name>

<value>master:23125</value>

</property>

<name>yarn.resourcemanager.resource-tracker.address.rm2</name>

<value>slave1:23125</value>

</property>

<name>yarn.resourcemanager.webapp.address.rm1</name>

<value>master:8088</value>

</property>

<name>yarn.resourcemanager.webapp.address.rm2</name>

<value>slave1:8088</value>

</property>

<name>yarn.resourcemanager.webapp.https.address.rm1</name>

<value>master:23189</value>

</property>

<name>yarn.resourcemanager.webapp.https.address.rm2</name>

<value>slave1:23189</value>

</property>

<name>yarn.log-aggregation-enable</name>

</property>

<name>yarn.log.server.url</name>

<value>http://master:19888/jobhistory/logs</value>

</property>

<name>yarn.nodemanager.resource.memory-mb</name>

</property>

<name>yarn.scheduler.minimum-allocation-mb</name>

<discription>單個任務可申請最少內存，默認1024MB</discription>

</property>

<name>yarn.scheduler.maximum-allocation-mb</name>

<discription>單個任務可申請最大內存，默認8192MB</discription>

</property>

<name>yarn.nodemanager.resource.cpu-vcores</name>

</property>

</configuration>

啓動zk

三臺電腦均執行：啓動 zkServer.sh start 查看狀態 zkServer.sh status

啓動hadoop(hdfs+yarn)

1、三臺電腦均啓動日誌 JournalNode

hadoop-daemon.sh start journalnode

2、格式化hadoop

hadoop namenode -format

將生成的元數據發送到各個節點

[root@master hadoop]# scp -r data slave1:/opt/soft2/hadoop/

fsimage_0000000000000000000 100% 317 0.3KB/s 00:00

VERSION 100% 202 0.2KB/s 00:00

fsimage_0000000000000000000.md5 100% 62 0.1KB/s 00:00

seen_txid

3、初始化zkfc

hdfs zkfc -formatZK

4、啓動hdfs的分佈式文件系統

start-dfs.sh

5、啓動yarn

start-yarn.sh

關閉集羣

關閉yarn stop-yarn.sh

關閉hdfs stop-dfs.sh

關閉zookeeper: 所有的節點都執行 zkServer.sh stop

啓動集羣

1、啓動zookeeper 所有的節點都執行 zkServer.sh start 2、啓動hadoop start-dfs.sh start-yarn.sh 另一個備份節點 yarn-daemon.sh start resourcemanager

監控集羣： hdfs dfsadmin -report

hadoop 3節點高可用分佈式安裝

初學者的多線程理解

stc與Tecnotree建立企業數字化計劃的戰略合作伙伴關係

誰在招人?(2020年12月) 免費的Linuxer招聘服務,持續更新...

HaaS600物聯網開發板學習筆記（一）---開發板硬件資源

MTC智能流量鏈堅守初心，未來可期！

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結