在kubernetes中用alluxio加速spark數據訪問(二)

1.背景信息

1.1 alluxio

Alluxio是一個開源的基於內存的分佈式存儲系統,適合作爲雲上大數據和AI / ML的數據編排方案。Alluxio可以同時管理多個底層文件系統,將不同的文件系統統一在同一個名稱空間下,讓上層客戶端可以自由訪問統一名稱空間內的不同路徑,不同存儲系統的數據。

alluxio的short-circuit功能可以使alluxio客戶端直接訪問alluxio worker所在主機的工作存儲,而不需要通過網絡棧與alluxio worker完成通信,可以提高性能。

1.2 spark operator

Spark-operator用於管理k8s集羣中spark job。通過spark-operator可以在k8s集羣中創建、查看和刪除spark job。

2.前提條件

本文檔的操作依賴如下的一些條件:

  • kubernet
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章