遇到問題----executor無法刪除一直重啓序號自增
如下:
[zzq@localhost spark-2.4.4-bin-hadoop2.7]$ kubectl get pods |grep spark
spark-1529-1581160495887-exec-51856 0/1 Error 0 105s
spark-1529-1581160497902-exec-51857 0/1 Error 0 103s
這樣的pod無法刪除,刪除後又自增
原因
executor資源無法回收的資源有兩種
1、這幾個pod關聯的driver還未停止
2、這幾個pod關聯的driver被手動殺掉已經失去了聯繫
導致資源無法回收。
[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-1n0oUGgJ-1581161618895)(http://image.525.life/Fl3ANMM1NOL-RR5eJptcVByhOGnq)]
如果是driver被手動殺掉已經失去了聯繫,那麼這幾個executor也能順利刪除。
一直重啓的可能性是 driver的pod還在運行。
那麼我們就需要找出這個pod。
解決方法
使用命令
kubectl get pod spark-1529-1581160495887-exec-51856 --output=yaml
查看這個pod創建的yaml,找到裏面的SPARK_DRIVER_URL變量。 就可以看到來源。如下:
spec:
containers:
- args:
- exec