Spark+Hadoop集羣搭建:(三)在Hadoop集羣上安裝Spark


本文將介紹如何在Hadoop集羣上安裝Spark。如果不知道如何搭建Hadoop集羣,請先閱讀本系列文章的(一)(二)兩部分

1 Scala安裝

Spark本身是用Scala語言開發的,所以首先需要安裝Scala。首先在master中安裝。我們用的spark版本爲2.4,需要配套使用的scala版本爲2.11

1.1 下載安裝包

進入Scala下載頁面,下拉,找到tgz包
在這裏插入圖片描述
右擊,複製鏈接如下
https://downloads.lightbend.com/scala/2.11.12/scala-2.11.12.tgz
在master的命令行中輸入:
wget https://downloads.lightbend.com/scala/2.11.12/scala-2.11.12.tgz

1.2 解壓

輸入命令:tar xvf scala-2.11.12.tgz
在這裏插入圖片描述

1.3 遷移目錄

將scala遷移到/usr/local目錄下
輸入命令:sudo mv scala-2.11.12 /usr/local/scala

1.4 配置環境變量

輸入命令:sudo gedit ~/.bashrc
加入如下的配置
在這裏插入圖片描述
使設置生效,輸入命令:source ~/.bashrc

1.5 啓動scala

可以啓動scala確認安裝成功。
輸入命令:scala
在這裏插入圖片描述
輸入命令: :q 退出

2 安裝Spark

2.1 下載安裝包

進入下載頁面,選擇spark2.4,hadoop2.7,如下圖所示。
在這裏插入圖片描述
點擊上圖中的鏈接,進入如下頁面。右擊,複製下圖紅框內鏈接。
在這裏插入圖片描述
複製結果如下:http://mirrors.shu.edu.cn/apache/spark/spark-2.4.0/spark-2.4.0-bin-hadoop2.7.tgz
輸入命令:wget http://mirrors.shu.edu.cn/apache/spark/spark-2.4.0/spark-2.4.0-bin-hadoop2.7.tgz
在這裏插入圖片描述

2.2 解壓

輸入命令:tar zxf spark-2.4.0-bin-hadoop2.7.tgz

2.3 遷移目錄

輸入命令:sudo mv spark-2.4.0-bin-hadoop2.7 /usr/local/spark/

2.4 配置環境變量

輸入命令:sudo gedit ~/.bashrc
添加如下配置
使配置生效,輸入命令:source ~/.bashrc
在這裏插入圖片描述

3 PySpark

3.1 安裝Python

使用PySpark需要使用python
輸入命令:sudo apt-get install python 安裝python2

3.2 啓動PySpark

輸入命令:pyspark

在這裏插入圖片描述

4 構建Spark Standalone Cluster運行環境

4.1 創建 spark-env.sh

複製模板文件,輸入命令:cp /usr/local/spark/conf/spark-env.sh.template /usr/local/spark/conf/spark-env.sh
編輯 spark-env.sh,輸入命令:sudo gedit /usr/local/spark/conf/spark-env.sh
添加如下信息
在這裏插入圖片描述

4.2 data1

連接data1,命令:ssh data1
創建spark目錄,命令:sudo mkdir /usr/local/spark
更改所有者,命令:sudo chown hduser:hduser /usr/local/spark
爲data1安裝python
註銷:exit
將master的spark複製到data1:sudo scp -r /usr/local/spark hduser@data1:/usr/local

4.3 data2、data3

用相同的方法處理data2、data3

4.4 配置slaves文件

命令:sudo gedit /usr/local/spark/conf/slaves

5 在Spark Standalone上運行pyspark

5.1 啓動Spark Standalone Cluster

命令:/usr/local/spark/sbin/start-all.sh

5.2 運行pyspark

命令:pyspark --master spark://master:7077 --numexecutors 1 --total-executor-cores 3 --executor-memory 512m
後邊3個參數分別定義了:每個節點上的執行器個數、執行器使用的內核數、每個執行器使用的內存數量

5.3 測試代碼

在這裏插入圖片描述

5.4 Spark Web UI界面

進入網址:http://master:8080/

5.5 關閉Spark Standalone Cluster

命令:/usr/local/spark/sbin/stop-all.sh

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章