點贊、關注再看,養成良好習慣
Life is short, U need Python
初學Python,快來點我吧
由於大部分學生用的都是windows系統,而且博主也是windows系統,所以想在win10上安裝Spark學習大數據分析,於是開始搜索相關的文章,通過親自挖坑Spark學習發現大多博文都比較混亂(但是自己卻學會了相關很多知識),結合實際情況博主認爲大家有一下四類需求(因爲博主比較熟悉Python,所以只分析Python語言版,至於Scala語言版可以查詢相關文獻資料):
(1)Win10下安裝Spark(Python+Local版+非虛擬機版):Local版即單機版,也就是說用戶無需集羣版(事實上,僅僅做一下大數據分析初學者最適合);環境準備如下:
- Anaconda3
- jdk-8u121-windows-x64.exe
- spark-2.4.5-bin-hadoop2.7
- winutils.exe (注意:與spark-2.4.5-bin-hadoop2.7中hadoop版本一致性)
(2)Win10下安裝Spark(Python+非Local版+非虛擬機版):非Local版即集羣版,這時需要Hadoop;環境準備如下:
- Anaconda3
- jdk-8u121-windows-x64.exe
- hadoop-2.7.7.tar.gz
- spark-2.4.5-bin-hadoop2.7
- scala-2.11.12.msi(注意:與spark版本的一致性)
- winutils.exe (注意:與spark-2.4.5-bin-hadoop2.7中hadoop版本一致性)
(3)Win10下安裝Spark(Python+Local版+虛擬機版+Linux系統):通過在win10中安裝VirtualBox虛擬機軟件,然後在虛擬機軟件上安裝Linux系統虛擬機(Ubuntu);環境準備如下:
- Anaconda3
- VirtualBox
- jdk-8u121-windows-x64.exe
- spark-2.4.5-bin-hadoop2.7
- winutils.exe (注意:與spark-2.4.5-bin-hadoop2.7中hadoop版本一致性)
(4)Win10下安裝Spark(Python+非Local版+虛擬機版+Linux系統):非Local版即集羣版,這時需要Hadoop;環境準備如下:
- Anaconda3
- VirtualBox
- jdk-8u121-windows-x64.exe
- hadoop-2.7.7.tar.gz
- spark-2.4.5-bin-hadoop2.7
- scala-2.11.12.msi(注意:與spark版本的一致性)
- winutils.exe (注意:與spark-2.4.5-bin-hadoop2.7中hadoop版本一致性)
一、安裝Anaconda3
二、安裝JDK
(1)網盤下載地址:
- 鏈接:https://pan.baidu.com/s/1tpwycDS5UDnsMxyid3qkGg
- 提取碼:cetu
- 溫馨提示:JDK版本爲jdk-8,高版本貌似會報錯(也可以從其他網站下載)
(2)安裝JDK(點擊安裝即可)
- 提示:博主安裝路徑爲C:\jdk(以下配置環境變量以此爲主)
三、安裝Spark(解壓Spark)
(1)官網下載地址:http://spark.apache.org/downloads.html
(2)安裝Spark(解壓Spark)
- 把下載的Spark壓縮包解壓到想保存的目錄,注意路徑中不要有空格:比如D:\spark
四、配置環境變量(直接上圖)
(1)設置環境變量
-
變量名:JAVA_HOME,變量值:C:\jdk
-
變量名:SPARK_HOME,變量值:D:\spark
-
變量名:HADOOP_HOME,變量值:C:\winutils
(2)修改(增加)PATH環境變量路徑
- %SPARK_HOME%\bin
- %JAVA_HOME%\bin
五、下載winutils.exe修改權限
(1)網盤下載地址:
- 鏈接:https://pan.baidu.com/s/1vSVhZoy1Ik5SCd6BRB8reQ
- 提取碼:ihea
- 溫馨提示:winutils.exe版本要與spark-2.4.5-bin-hadoop2.7中hadoop版本一致性
(2)安裝winutils.exe
- 在C盤建立winutils文件夾,在文件夾下建立bin文件夾,然後把上述下載軟件放在bin文件夾下
(3)授權:
- 在管理員身份cmd命令,然後切換到C:\winutils\bin,接着輸入:
winutils.exe chmod 777 \tmp\hive
- 或者在cmd提示符後直接輸入C:\winutils\bin\winutils.exe chmod 777 \tmp\hive
- 管理員身份進入cmd:開始菜單搜索中輸入cmd,在上方出現的cmd上右鍵點擊選擇以管理員身份運行
六、修改INFO
- 也可以不修改,但每次運行時會給出一大堆信息,影響結果的直觀性
- 找到spark中的conf文件夾並打開,找到log4j.properties.template文件,複製一份修改文件名爲log4j.properties,並寫字板打開修改INFO爲ERROR(或WARN)
七、檢驗pyspark是否安裝成功
(1)命令行窗口
(2)IDE(Jupyter Notebook)窗口
- 原因:沒有安裝pyspark模塊!
- 處理:最簡單方式就是把安裝的D:\Spark\python路徑下的pyspark文件夾複製粘貼到安裝的Anaconda3下的lib下的site-packages下面(即D:\Anaconda3\Lib\site-packages)
- 寫作不易,切勿白剽
- 博友們的點贊和關注就是對博主堅持寫作的最大鼓勵
- 持續更新,未完待續…
下一篇:Win10下安裝Spark(Python+非Local版+非虛擬機版)