條件
採用64位Oracle Linux 6.4, JDK:1.8.0_131 64位, Hadoop:2.7.3
Spark集羣實驗環境共包含3臺服務器,每臺機器的主要參數如表所示:
服務器 | HOSTNAME | IP | 功能 |
---|---|---|---|
spark1 | spark1 | 92.16.17.1 | NN/DN/RM Master/Worker |
spark2 | spark2 | 92.16.17.2 | DN/NM/Worker |
spark3 | spark3 | 92.16.17.3 | DN/NM/Worker |
過程
- 格式化NameNode節點
Hadoop集羣第一次運行需要先格式化 NameNode 節點, 使用如所示命令:
- 啓動HDFS文件系統
切換到啓動腳本所在的 $HADOOP_HOME/sbin 目錄,執行 start-dfs.sh 腳本:
分別在三臺主機上使用jps命令驗證NameNode和各DataNode:
- 啓動YARN
此時,在 spark1 上運行的進程有 NameNode, SecondaryNameNode, DataNode, ResourceManager, NodeManager:
在spark2和spark3上運行的進程有DataNode和NodeManager: