阿里雲易立:以雲原生之力,實現大模型時代基礎設施能力躍升 | KubeCon 主論壇分享

今天,由雲原生計算基金會 CNCF 主辦的 KubeCon+CloudNativeCon+OpenSourceSummit China 2023 主論壇在上海舉辦。阿里雲容器服務負責人易立在主論壇發表演講,介紹阿里云爲大模型提供的基礎設施能力,以及通過雲原生 AI 的方式助力大模型普惠提效。

易立在主論壇現場演講

大模型無疑是 AI 領域最重要的進展之一,生成式 AI 的驚豔表現讓關於下一代人工智能“魔力”的討論進入街頭巷尾,也讓雲計算的行業價值和技術核心迎來再次升級。易立認爲, “規模”、“性能”和 “效率” 正在成爲影響大模型生產和應用的三個核心因素,也是企業基礎設施在面臨生產、使用大模型時的全新挑戰。“爲了應對這些挑戰,我們需要算法突破,也需要工程創新”,易立表示。

而解決規模、性能、效率的問題,需要與社區共同探索與突破。多年來,阿里雲積極參與雲原生社區生態建設,推動雲原生 AI 應用更高效地運行在 Kubernetes 上,包括向 CNCF 捐獻雲原生數據集編排與加速項目 Fluid,以及 AI 工作負載管理框架 KubeDL 等;推動 Kubernetes Scheduler Framework 以更原生的方式支持 AI 工作負載。例如,OpenAI 在其大規模訓練集羣中使用了阿里雲開源貢獻的 Coscheduling 調度插件,大幅優化了資源分配效率。

易立介紹,“在支持企業大模型AI創新過程中我們發現,如何有效地管理 AI、大數據任務及其對異構算力資源的調度,是當前面臨的新挑戰。”

爲了讓企業以統一的方式支持微服務、大數據、AI 應用等多樣化工作負載,阿里雲開源了雲原生調度系統 Koordinator。它是基於阿里巴巴大規模調度實踐孵化出的開源 Kubernetes 調度器實現。在開源近1年半的時間裏,Koordinator 已被小紅書、小米、360、愛奇藝等多家企業應用於生產環境。“我們正在推進 Koordinator 捐贈到 CNCF 基金會,保持項目長期健康地發展。”易立介紹。

除了調度優化方面的工作,阿里雲容器服務 ACK 和雲原生 AI 套件構建了包含 GPU/NPU 高效運維、AI 作業管理、數據集訪問加速、彈性訓練與推理等完整的AI基礎設施能力,在此之上既支撐了阿里雲 PAI、靈駿智算、通義千問、妙鴨等 AI 平臺與服務,也支持了多種開源 AI 框架和大模型方案。 這些產品化的技術能力已被廣泛應用於任意門、小米、Recruit 等海內外企業,幫助客戶快速構建自己的 AI 系統,顯著提升 GPU 資源效率和 AI 工程效率。

此外,如何有效運用大模型,將 AIGC 技術在各行業落地,成爲行業關注焦點。發展開源生態是降低大模型應用使用門檻、推動人工智能技術普惠的必由之路。

阿里雲是開源的受益者,也是積極貢獻者,此前阿里雲公佈全新的 1+4 開源戰略,持續投入 AI、雲原生、數據庫、大數據、操作系統等領域的開源工作,持續提升開發者服務和企業創新支持,爲開源創新提速。 易立表示:“開源社區就像一個神經網絡,我們每個人都是其中一個神經元,緊密相連、互相協作。只有不斷地連接、貢獻、反饋,開源生態才能釋放出無限的潛能與創新。”

當前,阿里雲已經形成了基礎設施即服務(IaaS)、平臺即服務(PaaS)和模型即服務(MaaS)三層架構,可爲企業提供從大模型訓練到推理、服務的端到端解決方案。以模型爲中心的開發範式已成爲新趨勢,而云計算是 AI 普及和普惠的最好選擇。未來基於雲計算技術,以基礎大模型爲底座,將會推動全行業智能化升級。

現場精彩速遞 DAY2

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章