pyspark導入第三方包的方式
- 在spark-submit時添加參數 --py-files
spark-submit --py-files 文件1或py文件1,zip文件2或py文件2(多個文件用,分開) - 在sparkContext中使用addPyFile
sc.addPyFile(“xxxx.zip”)
或
spark.sparkContext.addFile(“xxx.zip”)
報錯
ImportError: (‘No module named numpy’, <function subimport at 0xf45c80>, (‘numpy’,))
比如我要提交的時numpy包,首先通過將numpy包打包成.zip文件,然後用上述方法導入,但是依然報ImportError,找不到包。
原因:打包方式出錯了。
zip文件的內容一打開必須形如上圖,不能在這些文件的上一級再套一個文件夾