我們在上篇文章已經學習使用spark on k8s的client mode 運行了spark shell 和提交jar包運行任務。
hadoop組件—spark實戰----spark on k8s模式k8s原生方式安裝spark2.4.4 client mode和使用
本篇文章記錄運行pyspark和提交python程序。
製作有python和java環境和包含有spark2.4.4客戶端的鏡像
在包含spark安裝目錄的 目錄中創建Dockerfile
因爲python3和java的結合鏡像 一般沒有直接可以使用的。所以我們自己做一個,思路是 在python3的基礎上 安裝jdk。
在包含spark安裝包的目錄下載jdk安裝包
官網下載需要登陸oracle賬號,有點麻煩。
分享一個百度網盤地址
放在與Dockerfile和spark-2.4.4-bin-hadoop2.7同一個目錄 如下:
zhangxiofansmbp:spark joe$ ls