R語言Spark大數據分析/可視化環境配置/部署教程（sparklyr、hadoop）

原創

LEEBELOVED

2020-06-21 05:07

R軟件本身軟件可以處理的數據量其實對於一些喜歡用R處理數據的有一些侷限性，但是R現在也可以部署大數據環境，過程雖然比較艱辛，但結果是安逸的。

最開始我們需要下載配置環境，配置環境小編把分爲兩部分：

1、外部環境配置文件（java、spark）；2、Rstudio中配置

1.1 java下載、安裝，選擇適合你係統的就可以；

1.2安裝好java後我們需要做的一件重要的事就是系統環境變量配置，至關重要的點就是這裏

1.3在這個系統變量中添加java_home變量，它的值爲jdk文件的根路徑，如截圖中的java_home

1.4在 在這個系統變量中雙擊打開path變量，在編輯環境變量中添加jdk、jre的路徑

1.5 配置完成後，打開電腦命令窗口，就是win+r，輸入cmd回車，在命令窗口分別輸入java、java若都有返回即可

1.6 spark下載，下載完成後配置spark所需系統環境，spark配置系統環境變量與java類似，同樣需要添加spark_home變量，在path中加入環境變量，但並不是你的spark文件路徑，而是%SPARK_HOME%\bin，這樣外部環境就算是配置完成。

2.1 Rstudio內部環境，這裏面了，先點擊窗口中的connections，添加，選擇spark，可以根據提示進行，但是這樣容易報錯，建議是把相關包加載後進行，相關的包如：sparklyr、shiny、rjava，這個裏面有些包是在安裝R後部署這個環境缺的，所以每個人缺的可能會不一樣。

小編完成後的畫面如下：

補充報錯解決方案：

Error in validate_java_version_line(master, version) : 
  Java version detected but couldn't parse version from Error occurred during initialization of VM - java/lang/NoClassDefFoundError: java/lang/Object

這個報錯是由於jdk1.8.0_201文件夾lib文件夾下tools.jar文件缺失導致，重新加一個就可以ok。

有什麼問題一起來解決哈，let's go

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

R語言Spark大數據分析/可視化環境配置/部署教程（sparklyr、hadoop）

補充報錯解決方案：

Tableau之數據可視化大屏/智慧大屏（成都大熊貓繁育研究基地，模擬旅遊相關數據）

Hmisc包函數（數據變量名批量修改、變量標籤、變量描述性統計）

R語言爬蟲豆瓣高評分電影（喝最烈的酒，熬最深的夜，喫最好的胃藥，敷最貴的面膜）

R語言RCurl爬蟲（多線程爬蟲）-高評分豆瓣圖書

超文本標記語言HTML知識NOTES

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結