Spark 集羣安裝

原創

2020-02-23 04:40

3、Spark集羣安裝

3.1、安裝

3.1.1、機器部署

準備兩臺以上Linux服務器，安裝好JDK1.7

3.1.2、下載Spark安裝包

http://www.apache.org/dyn/closer.lua/spark/spark-1.5.2/spark-1.5.2-bin-hadoop2.6.tgz

上傳解壓安裝包

上傳spark-1.5.2-bin-hadoop2.6.tgz安裝包到Linux上

解壓安裝包到指定位置

tar -zxvf spark-1.5.2-bin-hadoop2.6.tgz -C /usr/local

3.1.3、配置Spark

進入到Spark安裝目錄

cd /usr/local/spark-1.5.2-bin-hadoop2.6

進入conf目錄並重命名並修改spark-env.sh.template文件

cd conf/

mv spark-env.sh.template spark-env.sh

vi spark-env.sh

在該配置文件中添加如下配置

export JAVA_HOME=/usr/java/jdk1.7.0_45

export SPARK_MASTER_IP=node1.itcast.cn

export SPARK_MASTER_PORT=7077

保存退出

重命名並修改slaves.template文件

mv slaves.template slaves

vi slaves

在該文件中添加子節點所在的位置（Worker節點）

node2.itcast.cn

node3.itcast.cn

node4.itcast.cn

保存退出

將配置好的Spark拷貝到其他節點上

scp -r spark-1.5.2-bin-hadoop2.6/ node2.itcast.cn:/usr/local/

scp -r spark-1.5.2-bin-hadoop2.6/ node3.itcast.cn:/usr/local/

scp -r spark-1.5.2-bin-hadoop2.6/ node4.itcast.cn:/usr/local/

Spark集羣配置完畢，目前是1個Master，3個Work，在node1.itcast.cn上啓動Spark集羣

/usr/local/spark-1.5.2-bin-hadoop2.6/sbin/start-all.sh

啓動後執行jps命令，主節點上有Master進程，其他子節點上有Work進行，登錄Spark管理界面查看集羣狀態（主節點）：http://node1.itcast.cn:8080/

到此爲止，Spark集羣安裝完畢，但是有一個很大的問題，那就是Master節點存在單點故障，要解決此問題，就要藉助zookeeper，並且啓動至少兩個Master節點來實現高可靠，配置方式比較簡單：

Spark集羣規劃：node1，node2是Master；node3，node4，node5是Worker

安裝配置zk集羣，並啓動zk集羣

停止spark所有服務，修改配置文件spark-env.sh，在該配置文件中刪掉SPARK_MASTER_IP並添加如下配置

export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=zk1,zk2,zk3 -Dspark.deploy.zookeeper.dir=/spark"

1.在node1節點上修改slaves配置文件內容指定worker節點

2.在node1上執行sbin/start-all.sh腳本，然後在node2上執行sbin/start-master.sh啓動第二個Master

4、執行Spark程序

4.1、執行第一個spark程序

/usr/local/spark-1.5.2-bin-hadoop2.6/bin/spark-submit \

--class org.apache.spark.examples.SparkPi \

--master spark://node1.itcast.cn:7077 \

--executor-memory 1G \

--total-executor-cores 2 \

/usr/local/spark-1.5.2-bin-hadoop2.6/lib/spark-examples-1.5.2-hadoop2.6.0.jar \

100

該算法是利用蒙特·卡羅算法求PI

4.2、啓動Spark Shell

spark-shell是Spark自帶的交互式Shell程序，方便用戶進行交互式編程，用戶可以在該命令行下用scala編寫spark程序。

4.2.1、啓動spark shell

/usr/local/spark-1.5.2-bin-hadoop2.6/bin/spark-shell \

--master spark://node1.itcast.cn:7077 \

--executor-memory 2g \

--total-executor-cores 2

參數說明：

--master spark://node1.itcast.cn:7077 指定Master的地址

--executor-memory 2g 指定每個worker可用內存爲2G

--total-executor-cores 2 指定整個集羣使用的cup核數爲2個

注意：

如果啓動spark shell時沒有指定master地址，但是也可以正常啓動spark shell和執行spark shell中的程序，其實是啓動了spark的local模式，該模式僅在本機啓動一個進程，沒有與集羣建立聯繫。

Spark Shell中已經默認將SparkContext類初始化爲對象sc。用戶代碼如果需要用到，則直接應用sc即可

4.2.2、在spark shell中編寫WordCount程序

1.首先啓動hdfs

2.向hdfs上傳一個文件到hdfs://node1.itcast.cn:9000/words.txt

3.在spark shell中用scala語言編寫spark程序

sc.textFile("hdfs://node1.itcast.cn:9000/words.txt").flatMap(_.split(" "))

.map((_,1)).reduceByKey(_+_).saveAsTextFile("hdfs://node1.itcast.cn:9000/out")

4.使用hdfs命令查看結果

hdfs dfs -ls hdfs://node1.itcast.cn:9000/out/p*

說明：

sc是SparkContext對象，該對象時提交spark程序的入口

textFile(hdfs://node1.itcast.cn:9000/words.txt)是hdfs中讀取數據

flatMap(_.split(" "))先map在壓平

map((_,1))將單詞和1構成元組

reduceByKey(_+_)按照key進行reduce，並將value累加

saveAsTextFile("hdfs://node1.itcast.cn:9000/out")將結果寫入到hdfs中

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Spark 集羣安裝

3、Spark集羣安裝

3.1、安裝

3.1.1、機器部署

3.1.2、下載Spark安裝包

3.1.3、配置Spark

4、執行Spark程序

4.1、執行第一個spark程序

4.2、啓動Spark Shell

4.2.1、啓動spark shell

4.2.2、在spark shell中編寫WordCount程序

Spark-sql 結合hive使用

使用Logstash filter grok過濾日誌文件

Kafka負載均衡、Kafka自定義Partition、Kafk文件存儲機制

Spark Streaming中的操作函數分析

Zookeeper基本使用

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結