spark2.4的安裝和基本使用

安裝之前我們先來看看資料上對spark的一些解釋:

Apache Spark 是專爲大規模數據處理而設計的快速通用的計算引擎。Spark是UC Berkeley AMP lab (加州大學伯克利分校的AMP實驗室)所開源的類Hadoop MapReduce的通用並行計算框架,Spark擁有Hadoop MapReduce所具有的優點;但不同於MapReduce的是Job中間輸出結果可以保存在內存中,從而不再需要讀寫HDFS,因此Spark能更好地適用於數據挖掘與機器學習等需要迭代的MapReduce的算法。

Spark是Scala編寫,方便快速編程。

目前spark官網提供了2.x和3.x的版本供我們下載,由於spark由scala編寫所以下載還需要注意package的類型,這裏建議選擇內置scala但不含hadoop的版本,原因是好多人學習spark之前已經學過hadoop,機器上也具備了hadoop的環境

 

下載其實還是挺簡單的,沒什麼特別的地方

1  Spark開發環境的配置

下載解壓之後可根據需要給解壓文件重命名,之後進入conf目錄,複製一份spark-env.sh.template出來,重命名爲spark-env.sh,然後加入一下配置

export JAVA_HOME=/home/cry/javaenv/jdk/jdk1.8
export HADOOP_HOME=/home/cry/javaenv/hadoop
export HADOOP_CONF_DIR=/home/cry/javaenv/hadoop/etc/hadoop
export SPARK_MASTER_IP=192.168.1.29
export SPARK_DIST_CLASSPATH=$(/home/cry/javaenv/hadoop/bin/hadoop classpath) 

2.x以上的版本最後一句配置不能少,否則啓動會報錯,倒數第二句可以不配置

之後同樣複製一份slaves.template出來命名爲slaves,在最後一行寫上本機的主機名稱(可以去/etc/hosts裏查看)

以上步驟結束後環境搭建就完成了

 

2  spark的啓動和基本使用

啓動spark之前建議先把hadoop啓動,spark啓動命令就在bin目錄裏,啓動方式和hadoop差不多,就是 ./start-all.sh.啓動後使用jps命名檢查一下

worker和master就是啓動的spark的進程,如果啓動成功瀏覽器輸入http://localhost:8080/ 

當出現類似如下界面即說明spark環境正常

3   運行spark自帶的計算圓周率的例子

進入spark的bin目錄執行spark-submit 命令提交任務給spark,命令如下

./spark-submit  --master=spark://cry-PC:7077 --class=org.apache.spark.examples.JavaSparkPi ../examples/jars/spark-examples_2.12-2.4.4.jar 100

 下面是我本機配置的所有環境變量,提供出來作參考:

JAVA_HOME=/home/cry/javaenv/jdk/jdk1.8
CLASSPATH=.:$JAVA_HOME/bin.tools.jar
PATH=$JAVA_HOME/bin:$PATH
export JAVA_HOME CLASSPATH PATH
export ZOOKEEPER_HOME=/home/cry/javaenv/zookeeper
export PATH=$ZOOKEEPER_HOME/bin:$PATH
export PATH
export HADOOP_HOME=/home/cry/javaenv/hadoop
export SPARK_HOME=/home/cry/javaenv/spark
export PATH=$PATH:$SPARK_HOME/bin

當然了spark環境變量也建議大家配置到/etc/profile裏

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章