pyspark開發環境搭建

包依賴問題解決

方法一:使用findspark庫自動識別spark依賴包

1. 安裝findspark

pip install findspark

2. 使用findspark初始化pyspark的依賴

import findspark
findspark.init()

3. 導入依賴的pyspark模塊

from pyspark import SparkContext
from pyspark import SparkConf

方法二:動態加載依賴文件

import os
import sys

os.environ['SPARK_HOME'] = "/opt/apache-spark-1.6.2-bin-hadoop2.7"
sys.path.append("/opt/apache-spark-1.6.2-bin-hadoop2.7/python")
sys.path.append("/opt/apache-spark-1.6.2-bin-hadoop2.7/python/lib/py4j-0.9-src.zip")
try:
    from pyspark import SparkContext
    from pyspark import SparkConf

    print ("success")

except ImportError as e:
    print ("error importing spark modules", e)
    sys.exit(1)

方法三:設置環境變量

若服務器上是組內共用的賬號,不推薦此種方法

修改.bashrc,增加如下內容

# 若已有環境變量,可忽略此步
SPARK_HOME=/opt/apache-spark-1.6.2-bin-hadoop2.7 

# 添加python環境變量
export PYTHONPATH=${SPARK_HOME}/python:${SPARK_HOME}/python/lib/py4j-0.9-src.zip:${PYTHONPATH}
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章