Win10下安裝Spark（Python+Local版+非虛擬機版）

原創

2020-03-27 22:53

點贊、關注再看，養成良好習慣
Life is short, U need Python
初學Python，快來點我吧

由於大部分學生用的都是windows系統，而且博主也是windows系統，所以想在win10上安裝Spark學習大數據分析，於是開始搜索相關的文章，通過親自挖坑Spark學習發現大多博文都比較混亂（但是自己卻學會了相關很多知識），結合實際情況博主認爲大家有一下四類需求（因爲博主比較熟悉Python，所以只分析Python語言版，至於Scala語言版可以查詢相關文獻資料）：
（1）Win10下安裝Spark（Python+Local版+非虛擬機版）：Local版即單機版，也就是說用戶無需集羣版（事實上，僅僅做一下大數據分析初學者最適合）；環境準備如下：

Anaconda3
jdk-8u121-windows-x64.exe
spark-2.4.5-bin-hadoop2.7
winutils.exe （注意：與spark-2.4.5-bin-hadoop2.7中hadoop版本一致性）

（2）Win10下安裝Spark（Python+非Local版+非虛擬機版）：非Local版即集羣版，這時需要Hadoop；環境準備如下：

Anaconda3
jdk-8u121-windows-x64.exe
hadoop-2.7.7.tar.gz
spark-2.4.5-bin-hadoop2.7
scala-2.11.12.msi（注意：與spark版本的一致性）
winutils.exe （注意：與spark-2.4.5-bin-hadoop2.7中hadoop版本一致性）

（3）Win10下安裝Spark（Python+Local版+虛擬機版+Linux系統）：通過在win10中安裝VirtualBox虛擬機軟件，然後在虛擬機軟件上安裝Linux系統虛擬機（Ubuntu）；環境準備如下：

Anaconda3
VirtualBox
jdk-8u121-windows-x64.exe
spark-2.4.5-bin-hadoop2.7
winutils.exe （注意：與spark-2.4.5-bin-hadoop2.7中hadoop版本一致性）

（4）Win10下安裝Spark（Python+非Local版+虛擬機版+Linux系統）：非Local版即集羣版，這時需要Hadoop；環境準備如下：

Anaconda3
VirtualBox
jdk-8u121-windows-x64.exe
hadoop-2.7.7.tar.gz
spark-2.4.5-bin-hadoop2.7
scala-2.11.12.msi（注意：與spark版本的一致性）
winutils.exe （注意：與spark-2.4.5-bin-hadoop2.7中hadoop版本一致性）

一、安裝Anaconda3

參見：https://blog.csdn.net/qq_33499889/article/details/104378021

二、安裝JDK

（1）網盤下載地址：

鏈接：https://pan.baidu.com/s/1tpwycDS5UDnsMxyid3qkGg
提取碼：cetu
溫馨提示：JDK版本爲jdk-8，高版本貌似會報錯（也可以從其他網站下載）

（2）安裝JDK（點擊安裝即可）

提示：博主安裝路徑爲C:\jdk（以下配置環境變量以此爲主）

三、安裝Spark（解壓Spark）

（1）官網下載地址：http://spark.apache.org/downloads.html

（2）安裝Spark（解壓Spark）

把下載的Spark壓縮包解壓到想保存的目錄，注意路徑中不要有空格：比如D:\spark

四、配置環境變量（直接上圖）

（1）設置環境變量

變量名：JAVA_HOME，變量值：C:\jdk
變量名：SPARK_HOME，變量值：D:\spark
變量名：HADOOP_HOME，變量值：C:\winutils

（2）修改（增加）PATH環境變量路徑

%SPARK_HOME%\bin
%JAVA_HOME%\bin

五、下載winutils.exe修改權限

（1）網盤下載地址：

鏈接：https://pan.baidu.com/s/1vSVhZoy1Ik5SCd6BRB8reQ
提取碼：ihea
溫馨提示：winutils.exe版本要與spark-2.4.5-bin-hadoop2.7中hadoop版本一致性

（2）安裝winutils.exe

在C盤建立winutils文件夾，在文件夾下建立bin文件夾，然後把上述下載軟件放在bin文件夾下

（3）授權：

在管理員身份cmd命令，然後切換到C:\winutils\bin，接着輸入：

winutils.exe chmod 777 \tmp\hive

或者在cmd提示符後直接輸入C:\winutils\bin\winutils.exe chmod 777 \tmp\hive
管理員身份進入cmd：開始菜單搜索中輸入cmd，在上方出現的cmd上右鍵點擊選擇以管理員身份運行

六、修改INFO

也可以不修改，但每次運行時會給出一大堆信息，影響結果的直觀性
找到spark中的conf文件夾並打開，找到log4j.properties.template文件，複製一份修改文件名爲log4j.properties，並寫字板打開修改INFO爲ERROR（或WARN）

七、檢驗pyspark是否安裝成功

（1）命令行窗口

（2）IDE（Jupyter Notebook）窗口

原因：沒有安裝pyspark模塊！
處理：最簡單方式就是把安裝的D:\Spark\python路徑下的pyspark文件夾複製粘貼到安裝的Anaconda3下的lib下的site-packages下面（即D:\Anaconda3\Lib\site-packages）

寫作不易，切勿白剽

博友們的點贊和關注就是對博主堅持寫作的最大鼓勵

持續更新，未完待續…

下一篇：Win10下安裝Spark（Python+非Local版+非虛擬機版）

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

24小時熱門文章

最新文章

最新評論文章