- 下載 spark
- 下載 hadoop
- 下載 winutils.exe 放在 hadoop_home/bin
- 配置環境變量
將spark /jars 下的 py4j-0.10.7.jar 解壓到python環境Lib\site-packages下
pip install pypiwin32
- 啓動spark
import os
import sys
spark_home = os.environ.get('SPARK_HOME', None)
if not spark_home:
raise ValueError('SPARK_HOME environment variable is not set')
sys.path.insert(0, os.path.join(spark_home, 'python'))
sys.path.insert(0, os.path.join(spark_home, 'python/lib/py4j-0.10.4-src.zip'))
comm=os.path.join(spark_home, 'python/lib/py4j-0.10.4-src.zip')
print ('start spark....',comm)
exec(open(os.path.join(spark_home, 'python/pyspark/shell.py')).read())