Win10下安裝Spark(Python+Local版+非虛擬機版)

點贊、關注再看,養成良好習慣
Life is short, U need Python
初學Python,快來點我吧
在這裏插入圖片描述


由於大部分學生用的都是windows系統,而且博主也是windows系統,所以想在win10上安裝Spark學習大數據分析,於是開始搜索相關的文章,通過親自挖坑Spark學習發現大多博文都比較混亂(但是自己卻學會了相關很多知識),結合實際情況博主認爲大家有一下四類需求(因爲博主比較熟悉Python,所以只分析Python語言版,至於Scala語言版可以查詢相關文獻資料):
(1)Win10下安裝Spark(Python+Local版+非虛擬機版):Local版即單機版,也就是說用戶無需集羣版(事實上,僅僅做一下大數據分析初學者最適合);環境準備如下:

  • Anaconda3
  • jdk-8u121-windows-x64.exe
  • spark-2.4.5-bin-hadoop2.7
  • winutils.exe (注意:與spark-2.4.5-bin-hadoop2.7中hadoop版本一致性)

(2)Win10下安裝Spark(Python+非Local版+非虛擬機版):非Local版即集羣版,這時需要Hadoop;環境準備如下:

  • Anaconda3
  • jdk-8u121-windows-x64.exe
  • hadoop-2.7.7.tar.gz
  • spark-2.4.5-bin-hadoop2.7
  • scala-2.11.12.msi(注意:與spark版本的一致性)
  • winutils.exe (注意:與spark-2.4.5-bin-hadoop2.7中hadoop版本一致性)

(3)Win10下安裝Spark(Python+Local版+虛擬機版+Linux系統):通過在win10中安裝VirtualBox虛擬機軟件,然後在虛擬機軟件上安裝Linux系統虛擬機(Ubuntu);環境準備如下:

  • Anaconda3
  • VirtualBox
  • jdk-8u121-windows-x64.exe
  • spark-2.4.5-bin-hadoop2.7
  • winutils.exe (注意:與spark-2.4.5-bin-hadoop2.7中hadoop版本一致性)

(4)Win10下安裝Spark(Python+非Local版+虛擬機版+Linux系統):非Local版即集羣版,這時需要Hadoop;環境準備如下:

  • Anaconda3
  • VirtualBox
  • jdk-8u121-windows-x64.exe
  • hadoop-2.7.7.tar.gz
  • spark-2.4.5-bin-hadoop2.7
  • scala-2.11.12.msi(注意:與spark版本的一致性)
  • winutils.exe (注意:與spark-2.4.5-bin-hadoop2.7中hadoop版本一致性)

一、安裝Anaconda3

二、安裝JDK

(1)網盤下載地址:
  • 鏈接:https://pan.baidu.com/s/1tpwycDS5UDnsMxyid3qkGg
  • 提取碼:cetu
  • 溫馨提示:JDK版本爲jdk-8,高版本貌似會報錯(也可以從其他網站下載)
(2)安裝JDK(點擊安裝即可)

在這裏插入圖片描述

  • 提示:博主安裝路徑爲C:\jdk(以下配置環境變量以此爲主)

三、安裝Spark(解壓Spark)

(1)官網下載地址:http://spark.apache.org/downloads.html在這裏插入圖片描述
(2)安裝Spark(解壓Spark)
  • 把下載的Spark壓縮包解壓到想保存的目錄,注意路徑中不要有空格:比如D:\spark

四、配置環境變量(直接上圖)

(1)設置環境變量
  • 變量名:JAVA_HOME,變量值:C:\jdk

    在這裏插入圖片描述

  • 變量名:SPARK_HOME,變量值:D:\spark

    在這裏插入圖片描述

  • 變量名:HADOOP_HOME,變量值:C:\winutils

    在這裏插入圖片描述

(2)修改(增加)PATH環境變量路徑
  • %SPARK_HOME%\bin
  • %JAVA_HOME%\bin

    在這裏插入圖片描述

五、下載winutils.exe修改權限

(1)網盤下載地址:
(2)安裝winutils.exe
  • 在C盤建立winutils文件夾,在文件夾下建立bin文件夾,然後把上述下載軟件放在bin文件夾下

    在這裏插入圖片描述
(3)授權:
  • 在管理員身份cmd命令,然後切換到C:\winutils\bin,接着輸入:
winutils.exe chmod 777 \tmp\hive

在這裏插入圖片描述

  • 或者在cmd提示符後直接輸入C:\winutils\bin\winutils.exe chmod 777 \tmp\hive
  • 管理員身份進入cmd:開始菜單搜索中輸入cmd,在上方出現的cmd上右鍵點擊選擇以管理員身份運行
    在這裏插入圖片描述

六、修改INFO

  • 也可以不修改,但每次運行時會給出一大堆信息,影響結果的直觀性
  • 找到spark中的conf文件夾並打開,找到log4j.properties.template文件,複製一份修改文件名爲log4j.properties,並寫字板打開修改INFO爲ERROR(或WARN)

    在這裏插入圖片描述
    在這裏插入圖片描述

七、檢驗pyspark是否安裝成功

(1)命令行窗口

在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述

(2)IDE(Jupyter Notebook)窗口

在這裏插入圖片描述

  • 原因:沒有安裝pyspark模塊!
  • 處理:最簡單方式就是把安裝的D:\Spark\python路徑下的pyspark文件夾複製粘貼到安裝的Anaconda3下的lib下的site-packages下面(即D:\Anaconda3\Lib\site-packages)

    在這裏插入圖片描述

  • 寫作不易,切勿白剽
  • 博友們的點贊關注就是對博主堅持寫作的最大鼓勵
  • 持續更新,未完待續…

下一篇:Win10下安裝Spark(Python+非Local版+非虛擬機版)

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章