Spark+Hadoop集羣搭建:(一)單一節點上搭建Hadoop環境

1 安裝JDK

使用Hadoop需要安裝Java環境。安裝jdk8
輸入命令:sudo apt-get update
輸入命令:sudo apt-get install openjdk-8-jre-headless
輸入命令:java --version 檢查當前的java版本,安裝成功
在這裏插入圖片描述

2 下載安裝Hadoop

2.1 下載Hadoop

Hadoop官網的下載頁面,選擇Hadoop2.7.7的binary,點擊
在這裏插入圖片描述
點擊後進入如下頁面,找到給出的鏡像下載點,複製鏈接在這裏插入圖片描述
在虛擬機的終端利用wget命令下載,如下圖所示。命令格式:wget [鏈接]
在這裏插入圖片描述
下載結束後,顯示界面如下
在這裏插入圖片描述
輸入ls命令,可以看到,當前目錄中已經多了一個hadoop的tar.gz文件,該文件位於系統的主目錄下。
在這裏插入圖片描述

2.2 解壓

在終端輸入如下圖所示的命令(注意要在主目錄下)(可以簡單學習一下Linux的基本操作)
sudo tar -zxvf [文件名] (文件名你下載的Hadoop壓縮包的名稱)
在這裏插入圖片描述
解壓後會得到hadoop文件。可以用ls命令查看。
在這裏插入圖片描述
接着將解壓後的文件移動到/usr/local/hadoop目錄下
命令 sudo mv hadoop-2.7.7 /usr/local/hadoop
在這裏插入圖片描述
輸入命令ll可以查看移動結果
命令 ll /usr/local/hadoop
在這裏插入圖片描述

2.3 配置Hadoop環境變量

運行Hadoop前需要設置環境變量。爲了每次進入操作系統後,可以自動配置好環境變量,我們需要修改bashrc文件。輸入命令 sudo gedit ~/.bashrc
在這裏插入圖片描述
在文件最末添加配置內容。

2.3.1 設置JDK與Hadoop安裝路徑

首先,確認JDK的安裝路徑。在終端(可以新開一個終端)中輸入update-alternatives --display java 命令,查看
在這裏插入圖片描述
其安裝路徑爲上圖紅框中內容。在bashrc文件中設置JDK的安裝路徑(注意最後的/bin/java不要),添加
export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
再設置Hadoop安裝路徑
export HADOOP_HOME=/usr/local/hadoop
再設置PATH
export PATH=PATH:PATH:HADOOP_HOME/bin
export PATH=PATH:PATH:HADOOP_HOME/sbin

2.3.2 設置HADOOP其他環境變量、鏈接庫等

export HADOOP_MAPRED_HOME=HADOOPHOMEexportHADOOPCOMMONHOME=HADOOP_HOME export HADOOP_COMMON_HOME=HADOOP_HOME
export HADOOP_HDFS_HOME=HADOOPHOMEexportYARNHOME=HADOOP_HOME export YARN_HOME=HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=HADOOPHOME/lib/nativeexportHADOOPOPTS="DJava.library.path=HADOOP_HOME/lib/native export HADOOP_OPTS="-DJava.library.path=HADOOP_HOME/lib"
export JAVA_LIBRARY_PATH=HADOOPHOME/lib/native:HADOOP_HOME/lib/native:JAVA_LIBRARY_PATH

2.3.3 保存設置

編輯完後,如下所示,點擊保存然後退出文件。
=在這裏插入圖片描述
命令行輸入 source ~/.bashrc 是的設置生效
在這裏插入圖片描述

2.4 修改Hadoop配置設置文件

2.4.1 配置Hadoop-env.sh

這個是Hadoop的配置文件。
輸入命令 sudo gedit /usr/local/hadoop/etc/hadoop/hadoop-env.sh 打開文件,找到其JAVA_HOME設置。如下圖
在這裏插入圖片描述
修改爲本地的java安裝路徑 /usr/lib/jvm/java-11-openjdk-amd64 (和之前一樣),保存並退出
在這裏插入圖片描述

2.4.2 配置core-site.xml

設置HDFS的默認名稱。
sudo gedit /usr/local/hadoop/etc/hadoop/core-site.xml
在這裏插入圖片描述
在configuration中添加如下內容,保存退出
在這裏插入圖片描述

2.4.3 配置YARN-site.xml

sudo gedit /usr/local/hadoop/etc/hadoop/yarn-site.xml
在這裏插入圖片描述
在configuration中添加如下內容:
在這裏插入圖片描述

2.4.4 配置mapred-site.xml

Hadoop提供了mapred-site.xml的模板文件。輸入命令進行復制 sudo cp /usr/local/hadoop/etc/hadoop/mapred-site.xml.template /usr/local/hadoop/etc/hadoop/mapred-site.xml
打開mapred-site.xml文件
sudo gedit /usr/local/hadoop/etc/hadoop/mapred-site.xml
在這裏插入圖片描述
在configuration中添加如下配置
在這裏插入圖片描述

2.4.5 配置hdfs-site.xml

sudo gedit /usr/local/hadoop/etc/hadoop/hdfs-site.xml
在這裏插入圖片描述
在configuration中添加如下內容
在這裏插入圖片描述

2.5 創建並格式化HDFS目錄

首先,創建namenode數據存儲目錄
sudo mkdir -p /usr/local/hadoop/hadoop_data/hdfs/namenode
然後,創建datanode數據存儲目錄
sudo mkdir -p /usr/local/hadoop/hadoop_data/hdfs/datanode
將hadoop目錄的所有者更改爲hduser
sudo chown hduser:hduser -R /usr/local/hadoop
在這裏插入圖片描述
最後,將HDFS進行格式化
hadoop namenode -format
在這裏插入圖片描述

2.6 啓動Hadoop

Hadoop啓動時,NameNode與DataNode連接並管理這些節點。連接時需要使用SSH工具。因此,首先需要下載SSH。輸入命令 apt-get install ssh 既可下載
在這裏插入圖片描述
下載後嘗試啓動hadoop
輸入命令 start-all.sh 中間會反覆要求輸入密碼,因爲單節點狀態下,namenode與datanode時同一臺機器,我們只需要輸入自己機器的密碼即可。最後會顯示成功啓動
在這裏插入圖片描述
啓動後,我們可以輸入命令 ips 查看系統當前啓動的進程,可見已經正常啓動
在這裏插入圖片描述
其中ResourceManager NodeManager屬於MapReduce功能
NameNode,SecondaryNameNode,DataNode屬於HDFS功能
此外,可以單獨啓動HDFS,命令爲 start-dfs.sh
也可以單獨啓動Yarn,命令爲 start-yarn.sh
關閉命令:stop-all.sh

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章