R語言Spark大數據分析/可視化環境配置/部署教程(sparklyr、hadoop)

R軟件本身軟件可以處理的數據量其實對於一些喜歡用R處理數據的有一些侷限性,但是R現在也可以部署大數據環境,過程雖然比較艱辛,但結果是安逸的。

 

最開始我們需要下載配置環境,配置環境小編把分爲兩部分:

1、外部環境配置文件(java、spark);2、Rstudio中配置

1.1 java下載、安裝,選擇適合你係統的就可以; 

1.2安裝好java後我們需要做的一件重要的事就是系統環境變量配置,至關重要的點就是這裏

1.3在這個系統變量中添加java_home變量,它的值爲jdk文件的根路徑,如截圖中的java_home 

在這個系統變量中添加java_home變量,它的值爲jdk文件的根路徑,如截圖中的java_home

1.4在 在這個系統變量中雙擊打開path變量,在編輯環境變量中添加jdk、jre的路徑

1.5 配置完成後,打開電腦命令窗口,就是win+r,輸入cmd回車,在命令窗口分別輸入java、java若都有返回即可

1.6 spark下載,下載完成後配置spark所需系統環境,spark配置系統環境變量與java類似,同樣需要添加spark_home變量,在path中加入環境變量,但並不是你的spark文件路徑,而是%SPARK_HOME%\bin,這樣外部環境就算是配置完成。

2.1 Rstudio內部環境,這裏面了,先點擊窗口中的connections,添加,選擇spark,可以根據提示進行,但是這樣容易報錯,建議是把相關包加載後進行,相關的包如:sparklyr、shiny、rjava,這個裏面有些包是在安裝R後部署這個環境缺的,所以每個人缺的可能會不一樣。

 

小編完成後的畫面如下:

補充報錯解決方案: 

Error in validate_java_version_line(master, version) : 
  Java version detected but couldn't parse version from Error occurred during initialization of VM - java/lang/NoClassDefFoundError: java/lang/Object

這個報錯是由於jdk1.8.0_201文件夾lib文件夾下tools.jar文件缺失導致,重新加一個就可以ok。 

有什麼問題一起來解決哈,let's go

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章