1. 機器:
(1)master :主機名:hadoop-1 IP:202.193.74.111
(2)slave1 :主機名: hadoop-2 IP:202.193.74.112
(3)slave2 :主機名: hadoop-3 IP:202.193.74.113
已經部署好了hadoop分佈式集羣環境,hadoop版本爲1.1.2(32) ,JDK版本爲1.6
2. Spark需要安裝的軟件
(1) Spark版本 :spark-1.0.0-bin-hadoop1.tgz ,下載地址爲:http://d3kbcqa49mib13.cloudfront.net/spark-1.0.0-bin-hadoop1.tgz
(2) Scala版本:Scala2.10.4
下載地址爲:http://www.scala-lang.org/download/2.10.4.html
3. 安裝Scala:
(1) 通過WinScp將Scala-2.10.4.tgz拷貝到Master主機上,目錄爲: /root/Dowloads/
(2) 進入/root/Downloads/目錄,可以看到剛剛拷貝的scala壓縮包:
(3) 創建目錄mkdir /usr/lib/scala ,將/root/Downloads/下的scala壓縮包拷貝到該目錄:
(4) 將scala-2.10.4.tgz進行壓縮:
(5) 對壓縮後的scala文件夾進行重命名爲scala: mv scala-2.10.4 scala
(6) Vim對/etc/profile進行配置文件的操作:增加如下圖所示的scala環境變量:
(7) 對/etc/profile文件進行source操作,使之生效:
(8) 進行scala的驗證,並進行加法的簡單運算:
(9) 至此,我們已經完成了在Master上Scala的安裝,接着對Slave1和Slave2從節點進行scala安裝,通過scp命名將/usr/lib/scala/目錄分別傳給slave1(hadoop-2)和slave2(hadoop-3)節點:
同時將主節點上的/etc/profile配置文件也傳給兩個從節點:
並在從節點上對/etc/profile文件進行source操作,並進行驗證:
4. 安裝Spark
(1) 將/root/Downloads/下的spark-1.0.0-bin-hadoop1.tgz 壓縮包拷貝到/usr/local/目錄下:
(2) 將spark-1.0.0-bin-hadoop1.tgz 壓縮到當前目錄:
(3) 將spark-1.0.0-bin-hadoop1 目錄重命名爲spark:
(4) 進行/etc/profile配置文件操作,增加下列內容:
(5) 對配置文件進行source操作:
(6) 配置Spark:
①進入spark目錄的conf目錄:
②把spark-env.sh.template 拷貝到spark-env.sh
③Vim進入spark-env.sh進行如下內容添加:
JAVA_HOME是java的安裝目錄
SCALA_HOME是scala的安裝目錄
SPARK_MASTER_IP是spark集羣的master節點的地址
SPARK_WORKER_MEMORY是worker節點能夠分配給Excutors的內存大小,虛擬機配置的內存是1g 。
HADOOP_CONF_DIR是已經安裝的hadoop的配置文件所在目錄
④進行slaves文件的配置,在文件中增加下列內容,把worker節點的主機名都增加進去(我們將三個節點都設爲了worker節點,即把主節點既設爲了master節點又設爲了worker節點):
⑤對於slave1和slave2節點也是相同的配置,用scp將spark目錄和/etc/profile、文件傳給hadoop-2和hadoop-3即可。
⑥啓動hadoop集羣:
⑦進入spark目錄下的sbin目錄,用“start-all.sh”啓動spark集羣:
⑧可以看到master節點上有master和worker兩個進程,此外在slave節點上也出現了worker節點:
⑨用瀏覽器查看Spark的web頁面,從頁面上我們可以看到三個worker節點:
⑩我們還可以進入spark的bin目錄,執行spark-shell命令,進入spark-shell控制檯: