spark2.4的安裝和基本使用

原創

青蛙小王子

2020-06-24 05:23

安裝之前我們先來看看資料上對spark的一些解釋:

Apache Spark 是專爲大規模數據處理而設計的快速通用的計算引擎。Spark是UC Berkeley AMP lab (加州大學伯克利分校的AMP實驗室)所開源的類Hadoop MapReduce的通用並行計算框架，Spark擁有Hadoop MapReduce所具有的優點；但不同於MapReduce的是Job中間輸出結果可以保存在內存中，從而不再需要讀寫HDFS，因此Spark能更好地適用於數據挖掘與機器學習等需要迭代的MapReduce的算法。

Spark是Scala編寫，方便快速編程。

目前spark官網提供了2.x和3.x的版本供我們下載，由於spark由scala編寫所以下載還需要注意package的類型，這裏建議選擇內置scala但不含hadoop的版本，原因是好多人學習spark之前已經學過hadoop,機器上也具備了hadoop的環境

下載其實還是挺簡單的，沒什麼特別的地方

1 Spark開發環境的配置

下載解壓之後可根據需要給解壓文件重命名，之後進入conf目錄，複製一份spark-env.sh.template出來，重命名爲spark-env.sh，然後加入一下配置

export JAVA_HOME=/home/cry/javaenv/jdk/jdk1.8
export HADOOP_HOME=/home/cry/javaenv/hadoop
export HADOOP_CONF_DIR=/home/cry/javaenv/hadoop/etc/hadoop
export SPARK_MASTER_IP=192.168.1.29
export SPARK_DIST_CLASSPATH=$(/home/cry/javaenv/hadoop/bin/hadoop classpath)

2.x以上的版本最後一句配置不能少，否則啓動會報錯,倒數第二句可以不配置

之後同樣複製一份slaves.template出來命名爲slaves,在最後一行寫上本機的主機名稱（可以去/etc/hosts裏查看）

以上步驟結束後環境搭建就完成了

2 spark的啓動和基本使用

啓動spark之前建議先把hadoop啓動，spark啓動命令就在bin目錄裏，啓動方式和hadoop差不多，就是 ./start-all.sh.啓動後使用jps命名檢查一下

worker和master就是啓動的spark的進程，如果啓動成功瀏覽器輸入http://localhost:8080/

當出現類似如下界面即說明spark環境正常

3 運行spark自帶的計算圓周率的例子

進入spark的bin目錄執行spark-submit 命令提交任務給spark,命令如下

./spark-submit  --master=spark://cry-PC:7077 --class=org.apache.spark.examples.JavaSparkPi ../examples/jars/spark-examples_2.12-2.4.4.jar 100

下面是我本機配置的所有環境變量，提供出來作參考：

JAVA_HOME=/home/cry/javaenv/jdk/jdk1.8
CLASSPATH=.:$JAVA_HOME/bin.tools.jar
PATH=$JAVA_HOME/bin:$PATH
export JAVA_HOME CLASSPATH PATH
export ZOOKEEPER_HOME=/home/cry/javaenv/zookeeper
export PATH=$ZOOKEEPER_HOME/bin:$PATH
export PATH
export HADOOP_HOME=/home/cry/javaenv/hadoop
export SPARK_HOME=/home/cry/javaenv/spark
export PATH=$PATH:$SPARK_HOME/bin

當然了spark環境變量也建議大家配置到/etc/profile裏

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

spark2.4的安裝和基本使用

Spark是Scala編寫，方便快速編程。

spark持久化

spark算子練習題-靈活使用常用算子1

springboot使用jasypt增加應用安全性

SparkSql使用入門

SparkSql讀取csv實現統計功能

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結