Spark+Hadoop集羣搭建：（一）單一節點上搭建Hadoop環境

2.4 修改Hadoop配置設置文件

1 安裝JDK

使用Hadoop需要安裝Java環境。安裝jdk8
輸入命令：sudo apt-get update
輸入命令：sudo apt-get install openjdk-8-jre-headless
輸入命令：java --version 檢查當前的java版本，安裝成功

2 下載安裝Hadoop

2.1 下載Hadoop

到Hadoop官網的下載頁面，選擇Hadoop2.7.7的binary，點擊

點擊後進入如下頁面，找到給出的鏡像下載點，複製鏈接
在虛擬機的終端利用wget命令下載，如下圖所示。命令格式：wget [鏈接]

下載結束後，顯示界面如下

輸入ls命令，可以看到，當前目錄中已經多了一個hadoop的tar.gz文件，該文件位於系統的主目錄下。

2.2 解壓

在終端輸入如下圖所示的命令（注意要在主目錄下）（可以簡單學習一下Linux的基本操作）
sudo tar -zxvf [文件名] (文件名你下載的Hadoop壓縮包的名稱)

解壓後會得到hadoop文件。可以用ls命令查看。

接着將解壓後的文件移動到/usr/local/hadoop目錄下
命令 sudo mv hadoop-2.7.7 /usr/local/hadoop

輸入命令ll可以查看移動結果
命令 ll /usr/local/hadoop

2.3 配置Hadoop環境變量

運行Hadoop前需要設置環境變量。爲了每次進入操作系統後，可以自動配置好環境變量，我們需要修改bashrc文件。輸入命令 sudo gedit ~/.bashrc

在文件最末添加配置內容。

2.3.1 設置JDK與Hadoop安裝路徑

首先，確認JDK的安裝路徑。在終端（可以新開一個終端）中輸入update-alternatives --display java 命令，查看

其安裝路徑爲上圖紅框中內容。在bashrc文件中設置JDK的安裝路徑（注意最後的/bin/java不要），添加
export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
再設置Hadoop安裝路徑
export HADOOP_HOME=/usr/local/hadoop
再設置PATH
export PATH= $PATH:$ HADOOP_HOME/bin
export PATH= $PATH:$ HADOOP_HOME/sbin

2.3.2 設置HADOOP其他環境變量、鏈接庫等

export HADOOP_MAPRED_HOME= $HADOOP_HOME export HADOOP_COMMON_HOME=$ HADOOP_HOME
export HADOOP_HDFS_HOME= $HADOOP_HOME export YARN_HOME=$ HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR= $HADOOP_HOME/lib/native export HADOOP_OPTS="-DJava.library.path=$ HADOOP_HOME/lib"
export JAVA_LIBRARY_PATH= $HADOOP_HOME/lib/native:$ JAVA_LIBRARY_PATH

2.3.3 保存設置

編輯完後，如下所示，點擊保存然後退出文件。
=
命令行輸入 source ~/.bashrc 是的設置生效

2.4 修改Hadoop配置設置文件

2.4.1 配置Hadoop-env.sh

這個是Hadoop的配置文件。
輸入命令 sudo gedit /usr/local/hadoop/etc/hadoop/hadoop-env.sh 打開文件，找到其JAVA_HOME設置。如下圖

修改爲本地的java安裝路徑 /usr/lib/jvm/java-11-openjdk-amd64 （和之前一樣），保存並退出

2.4.2 配置core-site.xml

設置HDFS的默認名稱。
sudo gedit /usr/local/hadoop/etc/hadoop/core-site.xml

在configuration中添加如下內容，保存退出

2.4.3 配置YARN-site.xml

sudo gedit /usr/local/hadoop/etc/hadoop/yarn-site.xml

在configuration中添加如下內容：

2.4.4 配置mapred-site.xml

Hadoop提供了mapred-site.xml的模板文件。輸入命令進行復制 sudo cp /usr/local/hadoop/etc/hadoop/mapred-site.xml.template /usr/local/hadoop/etc/hadoop/mapred-site.xml
打開mapred-site.xml文件
sudo gedit /usr/local/hadoop/etc/hadoop/mapred-site.xml

在configuration中添加如下配置

2.4.5 配置hdfs-site.xml

sudo gedit /usr/local/hadoop/etc/hadoop/hdfs-site.xml

在configuration中添加如下內容

2.5 創建並格式化HDFS目錄

首先，創建namenode數據存儲目錄
sudo mkdir -p /usr/local/hadoop/hadoop_data/hdfs/namenode
然後，創建datanode數據存儲目錄
sudo mkdir -p /usr/local/hadoop/hadoop_data/hdfs/datanode
將hadoop目錄的所有者更改爲hduser
sudo chown hduser:hduser -R /usr/local/hadoop

最後，將HDFS進行格式化
hadoop namenode -format

2.6 啓動Hadoop

Hadoop啓動時，NameNode與DataNode連接並管理這些節點。連接時需要使用SSH工具。因此，首先需要下載SSH。輸入命令 apt-get install ssh 既可下載

下載後嘗試啓動hadoop
輸入命令 start-all.sh 中間會反覆要求輸入密碼，因爲單節點狀態下，namenode與datanode時同一臺機器，我們只需要輸入自己機器的密碼即可。最後會顯示成功啓動

啓動後，我們可以輸入命令 ips 查看系統當前啓動的進程，可見已經正常啓動

其中ResourceManager NodeManager屬於MapReduce功能
NameNode，SecondaryNameNode，DataNode屬於HDFS功能
此外，可以單獨啓動HDFS，命令爲 start-dfs.sh
也可以單獨啓動Yarn，命令爲 start-yarn.sh
關閉命令：stop-all.sh

Spark+Hadoop集羣搭建：（一）單一節點上搭建Hadoop環境

Spark+Hadoop集羣搭建：（一）單一節點上搭建Hadoop環境

1 安裝JDK

2 下載安裝Hadoop

2.1 下載Hadoop

2.2 解壓

2.3 配置Hadoop環境變量

2.3.1 設置JDK與Hadoop安裝路徑

2.3.2 設置HADOOP其他環境變量、鏈接庫等

2.3.3 保存設置

2.4 修改Hadoop配置設置文件

2.4.1 配置Hadoop-env.sh

2.4.2 配置core-site.xml

2.4.3 配置YARN-site.xml

2.4.4 配置mapred-site.xml

2.4.5 配置hdfs-site.xml

2.5 創建並格式化HDFS目錄

2.6 啓動Hadoop

24-5-18 X

spark開發環境——PyCharm開發python的spark項目

python學習——time

Numpy學習——array/asarray

spark開發環境——本地安裝spark2.x及啓動

python環境——PyCharm安裝

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結