1.背景信息
1.1 alluxio
Alluxio是一個開源的基於內存的分佈式存儲系統,適合作爲雲上大數據和AI / ML的數據編排方案。Alluxio可以同時管理多個底層文件系統,將不同的文件系統統一在同一個名稱空間下,讓上層客戶端可以自由訪問統一名稱空間內的不同路徑,不同存儲系統的數據。
alluxio的short-circuit功能可以使alluxio客戶端直接訪問alluxio worker所在主機的工作存儲,而不需要通過網絡棧與alluxio worker完成通信,可以提高性能。
1.2 spark operator
Spark-operator用於管理k8s集羣中spark job。通過spark-operator可以在k8s集羣中創建、查看和刪除spark job。
2.前提條件
本文檔的操作依賴如下的一些條件:
- kubernet