Spark+Hadoop集羣搭建：（三）在Hadoop集羣上安裝Spark

原創

闻曦

2019-02-01 17:07

本文將介紹如何在Hadoop集羣上安裝Spark。如果不知道如何搭建Hadoop集羣，請先閱讀本系列文章的（一）（二）兩部分

1 Scala安裝

Spark本身是用Scala語言開發的，所以首先需要安裝Scala。首先在master中安裝。我們用的spark版本爲2.4，需要配套使用的scala版本爲2.11

1.1 下載安裝包

進入Scala下載頁面，下拉，找到tgz包

右擊，複製鏈接如下
https://downloads.lightbend.com/scala/2.11.12/scala-2.11.12.tgz
在master的命令行中輸入：
wget https://downloads.lightbend.com/scala/2.11.12/scala-2.11.12.tgz

1.2 解壓

輸入命令：tar xvf scala-2.11.12.tgz

1.3 遷移目錄

將scala遷移到/usr/local目錄下
輸入命令：sudo mv scala-2.11.12 /usr/local/scala

1.4 配置環境變量

輸入命令：sudo gedit ~/.bashrc
加入如下的配置

使設置生效，輸入命令：source ~/.bashrc

1.5 啓動scala

可以啓動scala確認安裝成功。
輸入命令：scala

輸入命令： :q 退出

2 安裝Spark

2.1 下載安裝包

進入下載頁面，選擇spark2.4，hadoop2.7，如下圖所示。

點擊上圖中的鏈接，進入如下頁面。右擊，複製下圖紅框內鏈接。

複製結果如下：http://mirrors.shu.edu.cn/apache/spark/spark-2.4.0/spark-2.4.0-bin-hadoop2.7.tgz
輸入命令：wget http://mirrors.shu.edu.cn/apache/spark/spark-2.4.0/spark-2.4.0-bin-hadoop2.7.tgz

2.2 解壓

輸入命令：tar zxf spark-2.4.0-bin-hadoop2.7.tgz

2.3 遷移目錄

輸入命令：sudo mv spark-2.4.0-bin-hadoop2.7 /usr/local/spark/

2.4 配置環境變量

輸入命令：sudo gedit ~/.bashrc
添加如下配置
使配置生效，輸入命令：source ~/.bashrc

3 PySpark

3.1 安裝Python

使用PySpark需要使用python
輸入命令：sudo apt-get install python 安裝python2

3.2 啓動PySpark

輸入命令：pyspark

4 構建Spark Standalone Cluster運行環境

4.1 創建 spark-env.sh

複製模板文件，輸入命令：cp /usr/local/spark/conf/spark-env.sh.template /usr/local/spark/conf/spark-env.sh
編輯 spark-env.sh，輸入命令：sudo gedit /usr/local/spark/conf/spark-env.sh
添加如下信息

4.2 data1

連接data1，命令：ssh data1
創建spark目錄，命令：sudo mkdir /usr/local/spark
更改所有者，命令：sudo chown hduser:hduser /usr/local/spark
爲data1安裝python
註銷：exit
將master的spark複製到data1：sudo scp -r /usr/local/spark hduser@data1:/usr/local

4.3 data2、data3

用相同的方法處理data2、data3

4.4 配置slaves文件

命令：sudo gedit /usr/local/spark/conf/slaves

5 在Spark Standalone上運行pyspark

5.1 啓動Spark Standalone Cluster

命令：/usr/local/spark/sbin/start-all.sh

5.2 運行pyspark

命令：pyspark --master spark://master:7077 --numexecutors 1 --total-executor-cores 3 --executor-memory 512m
後邊3個參數分別定義了：每個節點上的執行器個數、執行器使用的內核數、每個執行器使用的內存數量

5.3 測試代碼

5.4 Spark Web UI界面

進入網址：http://master:8080/

5.5 關閉Spark Standalone Cluster

命令：/usr/local/spark/sbin/stop-all.sh

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Spark+Hadoop集羣搭建：（三）在Hadoop集羣上安裝Spark

Spark+Hadoop集羣搭建：（三）在Hadoop集羣上安裝Spark

1 Scala安裝

1.1 下載安裝包

1.2 解壓

1.3 遷移目錄

1.4 配置環境變量

1.5 啓動scala

2 安裝Spark

2.1 下載安裝包

2.2 解壓

2.3 遷移目錄

2.4 配置環境變量

3 PySpark

3.1 安裝Python

3.2 啓動PySpark

4 構建Spark Standalone Cluster運行環境

4.1 創建 spark-env.sh

4.2 data1

4.3 data2、data3

4.4 配置slaves文件

5 在Spark Standalone上運行pyspark

5.1 啓動Spark Standalone Cluster

5.2 運行pyspark

5.3 測試代碼

5.4 Spark Web UI界面

5.5 關閉Spark Standalone Cluster

spark開發環境——PyCharm開發python的spark項目

python學習——time

Numpy學習——array/asarray

spark開發環境——本地安裝spark2.x及啓動

python環境——PyCharm安裝

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結