Spark+Hadoop集羣搭建:(三)在Hadoop集羣上安裝Spark
本文將介紹如何在Hadoop集羣上安裝Spark。如果不知道如何搭建Hadoop集羣,請先閱讀本系列文章的(一)(二)兩部分
1 Scala安裝
Spark本身是用Scala語言開發的,所以首先需要安裝Scala。首先在master中安裝。我們用的spark版本爲2.4,需要配套使用的scala版本爲2.11
1.1 下載安裝包
進入Scala下載頁面,下拉,找到tgz包
右擊,複製鏈接如下
https://downloads.lightbend.com/scala/2.11.12/scala-2.11.12.tgz
在master的命令行中輸入:
wget https://downloads.lightbend.com/scala/2.11.12/scala-2.11.12.tgz
1.2 解壓
輸入命令:tar xvf scala-2.11.12.tgz
1.3 遷移目錄
將scala遷移到/usr/local目錄下
輸入命令:sudo mv scala-2.11.12 /usr/local/scala
1.4 配置環境變量
輸入命令:sudo gedit ~/.bashrc
加入如下的配置
使設置生效,輸入命令:source ~/.bashrc
1.5 啓動scala
可以啓動scala確認安裝成功。
輸入命令:scala
輸入命令: :q 退出
2 安裝Spark
2.1 下載安裝包
進入下載頁面,選擇spark2.4,hadoop2.7,如下圖所示。
點擊上圖中的鏈接,進入如下頁面。右擊,複製下圖紅框內鏈接。
複製結果如下:http://mirrors.shu.edu.cn/apache/spark/spark-2.4.0/spark-2.4.0-bin-hadoop2.7.tgz
輸入命令:wget http://mirrors.shu.edu.cn/apache/spark/spark-2.4.0/spark-2.4.0-bin-hadoop2.7.tgz
2.2 解壓
輸入命令:tar zxf spark-2.4.0-bin-hadoop2.7.tgz
2.3 遷移目錄
輸入命令:sudo mv spark-2.4.0-bin-hadoop2.7 /usr/local/spark/
2.4 配置環境變量
輸入命令:sudo gedit ~/.bashrc
添加如下配置
使配置生效,輸入命令:source ~/.bashrc
3 PySpark
3.1 安裝Python
使用PySpark需要使用python
輸入命令:sudo apt-get install python 安裝python2
3.2 啓動PySpark
輸入命令:pyspark
4 構建Spark Standalone Cluster運行環境
4.1 創建 spark-env.sh
複製模板文件,輸入命令:cp /usr/local/spark/conf/spark-env.sh.template /usr/local/spark/conf/spark-env.sh
編輯 spark-env.sh,輸入命令:sudo gedit /usr/local/spark/conf/spark-env.sh
添加如下信息
4.2 data1
連接data1,命令:ssh data1
創建spark目錄,命令:sudo mkdir /usr/local/spark
更改所有者,命令:sudo chown hduser:hduser /usr/local/spark
爲data1安裝python
註銷:exit
將master的spark複製到data1:sudo scp -r /usr/local/spark hduser@data1:/usr/local
4.3 data2、data3
用相同的方法處理data2、data3
4.4 配置slaves文件
命令:sudo gedit /usr/local/spark/conf/slaves
5 在Spark Standalone上運行pyspark
5.1 啓動Spark Standalone Cluster
命令:/usr/local/spark/sbin/start-all.sh
5.2 運行pyspark
命令:pyspark --master spark://master:7077 --numexecutors 1 --total-executor-cores 3 --executor-memory 512m
後邊3個參數分別定義了:每個節點上的執行器個數、執行器使用的內核數、每個執行器使用的內存數量
5.3 測試代碼
5.4 Spark Web UI界面
進入網址:http://master:8080/
5.5 關閉Spark Standalone Cluster
命令:/usr/local/spark/sbin/stop-all.sh