賦能人工智能:Kubeflow VMware Distribution的發佈

在最近結束的VMware Explore 2023 拉斯維加斯大會上,VMware推出了新的 Private AI產品,以促進企業採用生成式人工智能並挖掘可信數據的價值。VMware 宣佈了以下幾點:

  • 與 NVIDIA 合作推出 VMware Private AI Foundation,將兩家公司的戰略合作擴展到爲運行 VMware 雲基礎架構的企業準備適應下一代生成式人工智能的能力。

  • 推出 VMware Private AI 開源參考架構,通過支持當前和未來的最佳開源軟件(OSS)技術,幫助客戶實現他們期望的人工智能成果。


其中,VMware Private AI 開源參考架構(如下圖所示)爲客戶和合作夥伴提供了靈活性,使他們能夠:

  • 利用最佳模型、框架、應用程序和數據服務、工具和適合其業務需求的硬件,基於標準化的VMware驗證體系,實現快速、可重複、安全的部署。

  • 通過利用完全記錄的架構和相關代碼示例以及通過消除系統設計、測試、啓動、配置和供應過程中的複雜性,實現快速的交付價值。

  • 在共同的本地雲基礎設施堆棧上運行所有AI工作負載,最大化資源利用率,從而提高投資回報率。

  • 利用流行的開源項目,如 ray.io、Kubeflow、PyTorch、pgvector 以及Hugging Face 提供的模型。

Kubeflow專爲在Kubernetes環境中進行機器學習工作而設計的開源機器學習平臺,目前已被 CNCF 接受作爲其孵化項目。它的主要功能如下:

  • 提供一系列工具和組件,幫助用戶更輕鬆地部署、管理和擴展機器學習工作負載。

  • 幫助開發人員和數據科學家在容器化的環境中構建、訓練和部署機器學習模型。

  • 提供自動化的資源調度、監控和日誌記錄等功能,使機器學習任務更加高效和可管理性。

  • 提供安全工作組、集成軟件物料清單、基於Serviceaccount的身份驗證、對大多數API進行身份驗證以及加固lstio和網絡策略等安全性特性。

 

許多 VMware 的客戶已經在 vSphere 上投入了大量資源來運行關鍵應用程序,而如今他們希望將 vSphere 擴展爲支持 AI/ML 工作負載,並都希望在他們的知識庫上訓練一個大語言模型。通過VMware提供經過優化的Kubeflow 發行版Kubeflow VMware Distribution,VMware客戶可以充分利用經過驗證的 VMware 技術棧,來解決這些挑戰。這使得企業更容易在 vSphere 上安全地進行大規模的 Kubeflow 部署和管理,並且在值得信任的虛擬化基礎之上高效地實現客戶的AI/ML工作負載需求。

Kubeflow VMware Distribution的架構圖如下所示:

Kubeflow VMware Distribution的主要特點包括:

  • 通過與VMware基礎架構的無縫集成,允許客戶在現有VMware投資基礎上更快地部署Kubeflow,從而利用成熟的vSphere、VMware NSX、vSAN等企業特性,高效地部署人工智能/機器學習項目。

  • 使用Carvel打包技術將Kubeflow核心組件與Tanzu Kubernetes Grid自然集成,打造vSphere上的一站式Kubeflow部署經驗。

  • 提供了與vSphere集成的Pinniped的統一身份管理,先進的GPU動態管理、集成監控堆棧、多租戶控制訪問等企業級功能和產品就緒能力。

  • 支持不同類型的機器學習工作負載,包括自然語言處理(NLP)、圖像分類、視頻識別等,特別是時下流行的開源大語言模型部署、微調及預訓練。

未來,Kubeflow VMware Distribution將持續改進,與更多VMware產品特性進行深度融合,充分利用來自 VMware 合作伙伴的衆多商業 MLOps 工具(例如 Anyscale、cnvrg.io、Domino Data Lab、NVIDIA、One Convergence、Run:ai 和 Weights & Biases等),在中國我們也將與浪潮、超聚變等合作伙伴在此領域進行合作。讓我們共同期待!

本文作者:賀黎,VMware高級項目經理;劉奇,VMware高級工程師;曹磊,VMware工程師。

內容來源|公衆號:VMware 中國研發中心

有任何疑問,歡迎掃描下方公衆號聯繫我們哦~

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章