阿里雲易立：以雲原生之力，實現大模型時代基礎設施能力躍升

阿里雲易立：以雲原生之力，實現大模型時代基礎設施能力躍升 | KubeCon 主論壇分享

原創

2023-09-28 21:13

今天，由雲原生計算基金會 CNCF 主辦的 KubeCon+CloudNativeCon+OpenSourceSummit China 2023 主論壇在上海舉辦。阿里雲容器服務負責人易立在主論壇發表演講，介紹阿里云爲大模型提供的基礎設施能力，以及通過雲原生 AI 的方式助力大模型普惠提效。

易立在主論壇現場演講

大模型無疑是 AI 領域最重要的進展之一，生成式 AI 的驚豔表現讓關於下一代人工智能“魔力”的討論進入街頭巷尾，也讓雲計算的行業價值和技術核心迎來再次升級。易立認爲， “規模”、“性能”和 “效率” 正在成爲影響大模型生產和應用的三個核心因素，也是企業基礎設施在面臨生產、使用大模型時的全新挑戰。“爲了應對這些挑戰，我們需要算法突破，也需要工程創新”，易立表示。

而解決規模、性能、效率的問題，需要與社區共同探索與突破。多年來，阿里雲積極參與雲原生社區生態建設，推動雲原生 AI 應用更高效地運行在 Kubernetes 上，包括向 CNCF 捐獻雲原生數據集編排與加速項目 Fluid，以及 AI 工作負載管理框架 KubeDL 等；推動 Kubernetes Scheduler Framework 以更原生的方式支持 AI 工作負載。例如，OpenAI 在其大規模訓練集羣中使用了阿里雲開源貢獻的 Coscheduling 調度插件，大幅優化了資源分配效率。

易立介紹，“在支持企業大模型AI創新過程中我們發現，如何有效地管理 AI、大數據任務及其對異構算力資源的調度，是當前面臨的新挑戰。”

爲了讓企業以統一的方式支持微服務、大數據、AI 應用等多樣化工作負載，阿里雲開源了雲原生調度系統 Koordinator。它是基於阿里巴巴大規模調度實踐孵化出的開源 Kubernetes 調度器實現。在開源近1年半的時間裏，Koordinator 已被小紅書、小米、360、愛奇藝等多家企業應用於生產環境。“我們正在推進 Koordinator 捐贈到 CNCF 基金會，保持項目長期健康地發展。”易立介紹。

除了調度優化方面的工作，阿里雲容器服務 ACK 和雲原生 AI 套件構建了包含 GPU/NPU 高效運維、AI 作業管理、數據集訪問加速、彈性訓練與推理等完整的AI基礎設施能力，在此之上既支撐了阿里雲 PAI、靈駿智算、通義千問、妙鴨等 AI 平臺與服務，也支持了多種開源 AI 框架和大模型方案。 這些產品化的技術能力已被廣泛應用於任意門、小米、Recruit 等海內外企業，幫助客戶快速構建自己的 AI 系統，顯著提升 GPU 資源效率和 AI 工程效率。

此外，如何有效運用大模型，將 AIGC 技術在各行業落地，成爲行業關注焦點。發展開源生態是降低大模型應用使用門檻、推動人工智能技術普惠的必由之路。

阿里雲是開源的受益者，也是積極貢獻者，此前阿里雲公佈全新的 1+4 開源戰略，持續投入 AI、雲原生、數據庫、大數據、操作系統等領域的開源工作，持續提升開發者服務和企業創新支持，爲開源創新提速。易立表示：“開源社區就像一個神經網絡，我們每個人都是其中一個神經元，緊密相連、互相協作。只有不斷地連接、貢獻、反饋，開源生態才能釋放出無限的潛能與創新。”

當前，阿里雲已經形成了基礎設施即服務（IaaS）、平臺即服務（PaaS）和模型即服務（MaaS）三層架構，可爲企業提供從大模型訓練到推理、服務的端到端解決方案。以模型爲中心的開發範式已成爲新趨勢，而云計算是 AI 普及和普惠的最好選擇。未來基於雲計算技術，以基礎大模型爲底座，將會推動全行業智能化升級。