hadoop配置及介紹

文章目錄

4. hadoop安裝

1. hadoop的介紹

Hadoop最早起源於Nutch。Nutch的設計目標是構建一個大型的全網搜索引擎，包括網頁抓取、索引、查詢等功能，但隨着抓取網頁數量的增加，遇到了嚴重的可擴展性問題——如何解決數十億網頁的存儲和索引問題。

2003年、2004年穀歌發表的兩篇論文爲該問題提供了可行的解決方案：

分佈式文件系統（GFS），可用於處理海量網頁的存儲
分佈式計算框架MapReduce，可用於處理海量網頁的索引計算問題。

Nutch的開發人員完成了相應的開源實現hdfs和MapReduce，並從Nutch中剝離成爲獨立項目HADOOP，到2008年1月，HADOOP成爲Apache頂級項目.

建議去看一下原文，Google有三篇分佈式的論文，網上譯文很多。

HDFS操作過程

將文件分塊，分別存儲到不同計算機中

設置一臺計算機來管理和整合其他計算機

防止計算機宕機，每個分片數據會在多臺中保存副本

MapReduce操作過程

將計算任務進行拆分

將各部分結果彙總

狹義上的hadoop指的是HDFS(分佈式文件系統)，MapReduce(分佈式計算系統)和Yarn(分佈式樣集羣資源管理 )，廣義上指的是hadoop生態圈

apache所有軟件的下載地址（包括各種歷史版本）：

http://archive.apache.org/dist/

由於是開源版本，包更新較快但是穩定性不是太好。

2. hadoop架構模型

主要介紹2.x版本的架構模型，2.x一共有四種架構模型

第一種：NameNode與ResourceManager單節點架構模型

文件系統核心模塊：

NameNode：集羣當中的主節點，主要用於管理集羣當中的各種數據

secondaryNameNode：主要能用於hadoop當中元數據信息的輔助管理

DataNode：集羣當中的從節點，主要用於存儲集羣當中的各種數據

數據計算核心模塊：

ResourceManager：接收用戶的計算請求任務，並負責集羣的資源分配

NodeManager：負責執行主節點APPmaster分配的任務

不能很好的解決單點故障問題

第二種：NameNode單節點與ResourceManager高可用架構模型

文件系統核心模塊：

NameNode：集羣當中的主節點，主要用於管理集羣當中的各種數據

secondaryNameNode：主要能用於hadoop當中元數據信息的輔助管理

DataNode：集羣當中的從節點，主要用於存儲集羣當中的各種數據

數據計算核心模塊：

ResourceManager：接收用戶的計算請求任務，並負責集羣的資源分配，以及計算任務的劃分，通過zookeeper實現ResourceManager的高可用

NodeManager：負責執行主節點ResourceManager分配的任務

ResourceManager有備份節點，一旦ZKFC(watch機制)檢測到主節點宕機，備份節點馬上替代主節點

第三種：NameNode高可用與ResourceManager單節點架構模型

文件系統核心模塊：

NameNode：集羣當中的主節點，主要用於管理集羣當中的各種數據，其中nameNode可以有兩個，形成高可用狀態

DataNode：集羣當中的從節點，主要用於存儲集羣當中的各種數據

JournalNode：文件系統元數據信息管理，實現兩個namenode之間的數據同步

數據計算核心模塊：

ResourceManager：接收用戶的計算請求任務，並負責集羣的資源分配，以及計算任務的劃分

NodeManager：負責執行主節點ResourceManager分配的任務

第四種：NameNode與ResourceManager高可用架構模型

文件系統核心模塊：

NameNode：集羣當中的主節點，主要用於管理集羣當中的各種數據，一般都是使用兩個，實現HA高可用

JournalNode：元數據信息管理進程，一般都是奇數個

DataNode：從節點，用於數據的存儲

數據計算核心模塊：

ResourceManager：Yarn平臺的主節點，主要用於接收各種任務，通過兩個，構建成高可用

NodeManager：Yarn平臺的從節點，主要用於處理ResourceManager分配的任務

3. Apache版本的hadoop重新編譯

由於appache給出的hadoop的安裝包沒有提供帶C程序訪問的接口，所以我們在使用本地庫（本地庫可以用來做壓縮，以及支持C程序等等）的時候就會出問題,需要對Hadoop源碼包進行重新編譯.

3.1：準備linux環境

準備一臺linux環境，內存4G或以上，硬盤40G或以上，我這裏使用的是Centos6.9 64位的操作系統（注意：一定要使用64位的操作系統）

3.2：虛擬機聯網，關閉防火牆，關閉selinux

關閉防火牆命令：

service  iptables   stop
chkconfig   iptables  off

關閉selinux

vim /etc/selinux/config

3.3：安裝jdk1.7

注意hadoop-2.7.5 這個版本的編譯，只能使用jdk1.7，如果使用jdk1.8那麼就會報錯

查看centos6.9自帶的openjdk

rpm -qa | grep java

將所有這些openjdk全部卸載掉

rpm -e java-1.6.0-openjdk-1.6.0.41-1.13.13.1.el6_8.x86_64 tzdata-java-2016j-1.el6.noarch java-1.7.0-openjdk-1.7.0.131-2.6.9.0.el6_8.x86_64

注意：這裏一定不要使用jdk1.8，親測jdk1.8會出現錯誤

將我們jdk的安裝包上傳到/export/softwares（我這裏使用的是jdk1.7.0_71這個版本）

解壓我們的jdk壓縮包

統一兩個路徑

mkdir -p /export/servers
mkdir -p /export/softwares
cd /export/softwares
tar -zxvf jdk-7u71-linux-x64.tar.gz -C ../servers/

配置環境變量

vim /etc/profile

export JAVA_HOME=/export/servers/jdk1.7.0_71
export PATH=:$JAVA_HOME/bin:$PATH

讓修改立即生效

source /etc/profile

3.4：安裝maven

這裏使用maven3.x以上的版本應該都可以，不建議使用太高的版本，強烈建議使用3.0.5的版本即可

將maven的安裝包上傳到/export/softwares

然後解壓maven的安裝包到/export/servers

cd /export/softwares/
tar -zxvf apache-maven-3.0.5-bin.tar.gz -C ../servers/

配置maven的環境變量

vim /etc/profile

export MAVEN_HOME=/export/servers/apache-maven-3.0.5
export MAVEN_OPTS="-Xms4096m -Xmx4096m"
export PATH=:$MAVEN_HOME/bin:$PATH

讓修改立即生效

source /etc/profile

解壓maven的倉庫

tar -zxvf mvnrepository.tar.gz -C /export/servers/

修改maven的配置文件

cd  /export/servers/apache-maven-3.0.5/conf
vim settings.xml

指定我們本地倉庫存放的路徑

添加一個我們阿里雲的鏡像地址，會讓我們下載jar包更快

 <mirror>
      <id>alimaven</id>
      <name>aliyun maven</name>
      <url>http://maven.aliyun.com/nexus/content/groups/public/</url>
      <mirrorOf>central</mirrorOf>
    </mirror>

3.5：安裝findbugs

解壓findbugs

tar -zxvf findbugs-1.3.9.tar.gz -C ../servers/

配置findbugs的環境變量

vim /etc/profile

export JAVA_HOME=/export/servers/jdk1.7.0_75
export PATH=:$JAVA_HOME/bin:$PATH

export MAVEN_HOME=/export/servers/apache-maven-3.0.5
export PATH=:$MAVEN_HOME/bin:$PATH

export FINDBUGS_HOME=/export/servers/findbugs-1.3.9
export PATH=:$FINDBUGS_HOME/bin:$PATH

讓修改立即生效

source /etc/profile

3.6：在線安裝一些依賴包

yum install autoconf automake libtool cmake
yum install ncurses-devel
yum install openssl-devel
yum install lzo-devel zlib-devel gcc gcc-c++

bzip2壓縮需要的依賴包

yum install -y  bzip2-devel

3.7：安裝protobuf

解壓protobuf並進行編譯

cd  /export/softwares
tar -zxvf protobuf-2.5.0.tar.gz -C ../servers/
cd   /export/servers/protobuf-2.5.0
./configure
make && make install

3.8、安裝snappy

cd /export/softwares/
tar -zxf snappy-1.1.1.tar.gz  -C ../servers/
cd ../servers/snappy-1.1.1/
./configure
make && make install

3.9：編譯hadoop源碼

對源碼進行編譯

cd  /export/softwares
tar -zxvf hadoop-2.7.5-src.tar.gz  -C ../servers/
cd  /export/servers/hadoop-2.7.5

編譯支持snappy壓縮：

mvn package -DskipTests -Pdist,native -Dtar -Drequire.snappy -e -X

編譯完成之後我們需要的壓縮包就在下面這個路徑裏面

/export/servers/hadoop-2.7.5/hadoop-dist/target

4. hadoop安裝

集羣規劃

服務器IP	192.168.174.100	192.168.174.110	192.168.174.120
主機名	node01	node02	node03
NameNode	是	否	否
SecondaryNameNode	是	否	否
dataNode	是	是	是
ResourceManager	是	否	否
NodeManager	是	是	是

4.1 解壓hadoop包

上傳壓縮包並解壓

cd /export/softwares
rz -E
tar -zxvf hadoop-2.7.5.tar.gz -C ../servers/

4.2 修改配置文件

修改core-site.xml

cd  /export/servers/hadoop-2.7.5/etc/hadoop
vim  core-site.xml

<configuration>
	<!-- 指定集羣的文件系統類型：分佈式系統 -->
	<property>
		<name>fs.default.name</name>
		<value>hdfs://hadoop1:8020</value>
	</property>
    <!-- 指定臨時文件存儲目錄 -->
	<property>
		<name>hadoop.tmp.dir</name>
		<value>/export/servers/hadoop-2.7.5/hadoopDatas/tempDatas</value>

	</property>

	<!--  緩衝區大小，實際工作中根據服務器性能動態調整 -->

	<property>
		<name>io.file.buffer.size</name>
		<value>4096</value>
	</property>

	<!--  開啓hdfs的垃圾桶機制，刪除掉的數據可以從垃圾桶中回收，單位分鐘 -->
	<property>
		<name>fs.trash.interval</name>
		<value>10080</value>
	</property>
</configuration>

修改hdfs-site.xml

cd  /export/servers/hadoop-2.7.5/etc/hadoop
vim hdfs-site.xml

<configuration>
    <!-- secondary namenode地址設置 -->
	 <property>
			<name>dfs.namenode.secondary.http-address</name>
			<value>hadoop1:50090</value>
	</property>

    <!-- 指定namenode的訪問地址和端口 -->
	<property>
		<name>dfs.namenode.http-address</name>
		<value>hadoop1:50070</value>
	</property>
    
    <!-- 指定namenode元數據的存儲路徑 -->
	<property>
		<name>dfs.namenode.name.dir</name>
		<value>file:///export/servers/hadoop-2.7.5/hadoopDatas/namenodeDatas,file:///export/servers/hadoop-2.7.5/hadoopDatas/namenodeDatas2</value>
	</property>
    
	<!--  定義dataNode數據存儲的節點位置，實際工作中，一般先確定磁盤的掛載目錄，然後多個目錄用，進行分割  -->
	<property>
		<name>dfs.datanode.data.dir</name>
		<value>file:///export/servers/hadoop-2.7.5/hadoopDatas/datanodeDatas,file:///export/servers/hadoop-2.7.5/hadoopDatas/datanodeDatas2</value>
	</property>	
    
    <!-- 指定namenode日誌文件的存放地址 -->
	<property>
		<name>dfs.namenode.edits.dir</name>
		<value>file:///export/servers/hadoop-2.7.5/hadoopDatas/nn/edits</value>
	</property>

	<property>
		<name>dfs.namenode.checkpoint.dir</name>
		<value>file:///export/servers/hadoop-2.7.5/hadoopDatas/snn/name</value>
	</property>
    
	<property>
		<name>dfs.namenode.checkpoint.edits.dir</name>
		<value>file:///export/servers/hadoop-2.7.5/hadoopDatas/dfs/snn/edits</value>
	</property>

    <!-- 指定一個文件的副本個數 -->
	<property>
		<name>dfs.replication</name>
		<value>3</value>
	</property>

	<!-- 設置hdfs文件權限 -->
	<property>
		<name>dfs.permissions</name>
		<value>false</value>
	</property>

    <!-- 指定一個文件切片大小 -->
    <property>
		<name>dfs.blocksize</name>
		<value>134217728</value>
	</property>

</configuration>

修改hadoop-env.sh

cd  /export/servers/hadoop-2.7.5/etc/hadoop
vim  hadoop-env.sh

export JAVA_HOME=/export/servers/jdk1.8.0_141

修改mapred-site.xml

本地沒有這個文件，不需要重建，要將mapred-queues.xml.template文件的後綴去掉，寫入改文件

cd  /export/servers/hadoop-2.7.5/etc/hadoop
vim  mapred-site.xml

<configuration>
    <!-- 開啓MapReduce小任務模式 -->
	<property>
		<name>mapreduce.job.ubertask.enable</name>
		<value>true</value>
	</property>

	<!-- 設置歷史任務的主機和端口 -->
	<property>
		<name>mapreduce.jobhistory.address</name>
		<value>hadoop1:10020</value>
	</property>
 
    <!-- 設置網頁訪問歷史任務的主機和端口 -->
	<property>
		<name>mapreduce.jobhistory.webapp.address</name>
		<value>hadoop1:19888</value>
	</property>

</configuration>

yarn-site.xml

cd  /export/servers/hadoop-2.7.5/etc/hadoop
vim  yarn-site.xml

<configuration>
    <!-- 配置yarn主節點位置 -->
	<property>
		<name>yarn.resourcemanager.hostname</name>
		<value>hadoop1</value>
	</property>
    
	<property>
		<name>yarn.nodemanager.aux-services</name>
		<value>mapreduce_shuffle</value>
	</property>
	<!-- 開啓日誌聚合功能-->
	<property>
		<name>yarn.log-aggregation-enable</name>
		<value>true</value>
	</property>
    <!-- 設置聚合日誌聚合在hdfs上的保存時間 -->
	<property>
		<name>yarn.log-aggregation.retain-seconds</name>
		<value>604800</value>
	</property>
    
    <!-- 設置yarn集羣的內存分配方案 -->
	<property>    
		<name>yarn.nodemanager.resource.memory-mb</name>    
		<value>20480</value>
	</property>
	<property>  
        	 <name>yarn.scheduler.minimum-allocation-mb</name>
         	<value>2048</value>
	</property>
	<property>
		<name>yarn.nodemanager.vmem-pmem-ratio</name>
		<value>2.1</value>
	</property>

</configuration>

mapred-env.sh

cd  /export/servers/hadoop-2.7.5/etc/hadoop
vim  mapred-env.sh

export JAVA_HOME=/export/servers/jdk1.8.0_141

修改slaves

cd  /export/servers/hadoop-2.7.5/etc/hadoop
vim slaves

hadoop1
hadoop2
hadoop3

創建文件路徑

mkdir -p /export/servers/hadoop-2.7.5/hadoopDatas/tempDatas
mkdir -p /export/servers/hadoop-2.7.5/hadoopDatas/namenodeDatas
mkdir -p /export/servers/hadoop-2.7.5/hadoopDatas/namenodeDatas2
mkdir -p /export/servers/hadoop-2.7.5/hadoopDatas/datanodeDatas
mkdir -p /export/servers/hadoop-2.7.5/hadoopDatas/datanodeDatas2
mkdir -p /export/servers/hadoop-2.7.5/hadoopDatas/nn/edits
mkdir -p /export/servers/hadoop-2.7.5/hadoopDatas/snn/name
mkdir -p /export/servers/hadoop-2.7.5/hadoopDatas/dfs/snn/edits

複製到第二臺和第三臺機器，不需要做其他修改

cd  /export/servers/
scp -r hadoop-2.7.5 hadoop2:$PWD
scp -r hadoop-2.7.5 hadoop3:$PWD

4.3 配置hadoop環境變量

三臺都需要配置環境變量

vim  /etc/profile

export HADOOP_HOME=/export/servers/hadoop-2.7.5
export PATH=:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH

讓配置生效

source /etc/profile

4.4 啓動集羣

要啓動 Hadoop 集羣，需要啓動 HDFS 和 YARN 兩個模塊。
注意：首次啓動 HDFS 時，必須對其進行格式化操作。本質上是一些清理和
準備工作，因爲此時的 HDFS 在物理上還是不存在的。

cd  /export/servers/hadoop-2.7.5/
# 格式化，僅在第一次啓動時需要執行
bin/hdfs namenode -format
# 啓動HDFS
sbin/start-dfs.sh
# 啓動yarn
sbin/start-yarn.sh
# 啓動歷史完成任務
sbin/mr-jobhistory-daemon.sh start historyserver
# 關閉HDFS
sbin/stop-dfs.sh
# 關閉yarn
sbin/stop-yarn.sh

三個端口查看頁面

查看hdfs：http://hadoop1:50070/explorer.html

查看yarn集羣：http://hadoop1:8088/cluster

查看歷史完成的任務：http://hadoop1:19888/jobhistory

注意：啓動hadoop前，要保證zookeeper是啓動的，要不然可能啓動失敗

冥更

發佈了87 篇原創文章 · 獲贊 32 · 訪問量 4萬+

私信關注

hadoop配置及介紹

文章目錄

1. hadoop的介紹

2. hadoop架構模型

3. Apache版本的hadoop重新編譯

3.1：準備linux環境

3.2：虛擬機聯網，關閉防火牆，關閉selinux

3.3：安裝jdk1.7

3.4：安裝maven

3.5：安裝findbugs

3.6：在線安裝一些依賴包

3.7：安裝protobuf

3.8、安裝snappy

3.9：編譯hadoop源碼

4. hadoop安裝

4.1 解壓hadoop包

4.2 修改配置文件

4.3 配置hadoop環境變量

4.4 啓動集羣

HTTP URL 詳解

Python+Django電影推薦系統搭建

SQL數據庫和NoSQL數據庫的區別

maven的設置和介紹

HBase的基本操作命令

redis配置時的參數詳解

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結