鵝廠發佈的這個算力集羣，最快4天訓練萬億參數大模型

大模型要成功，算力是關鍵。

這是騰訊雲面向大模型訓練場景，發佈的全新一代的HCC高性能計算集羣性能參數：

“算力性能和上一代相比提升3倍，服務器接入帶寬從1.6T提升到3.2T。”

採用最新一代騰訊雲星星海自研服務器，並搭載NVIDIA H800 Tensor Core GPU的這代HCC高性能集羣，單GPU卡支持輸出最高1979 TFlops的算力。

具體強在哪裏？

去年10月，騰訊完成首個萬億參數的AI大模型——混元NLP大模型訓練。在同等數據集下，將訓練時間由50天縮短到11天。如果基於新一代集羣，訓練時間將進一步縮短至4天。

01、單純堆卡，算力並不能線性增長

模型熱度持續高漲，但要訓練一個成功的大模型，算力，算法、數據三者缺一不可。

越強的大模型，越需要更強的算力來完成訓練。擁有強大的算力是AI大模型成功的關鍵。

在單體服務器計算能力有限的情況下，需要將上千臺服務器相連，打造大規模、分佈式的高性能計算集羣。業界標杆的大模型，對訓練算力需求普遍非常高，使用成千上萬張GPU卡。

如此龐大的參數規模，單獨一塊GPU運算卡甚至都完成不了最基本的裝載，這也使得我們要用網絡聯接成千上萬的服務器組建大規模算力集羣，爲大模型提供所需的算力。

HCC高性能計算集羣就是在這樣的需求下誕生，但是，要把這麼多的卡“串聯“起來，背後需要很強的技術能力。

因爲根據木桶效應，單純堆卡並不能帶來算力的線性增長。它需要的是計算、存儲、網絡以及上層的框架等各個環節全面協調配合，才能輸出一個高性能、高帶寬、低延遲的智算能力平臺。

02、最強算力背後是底層自研技術的突破

爲了提供極致的算力輸出，騰訊雲HCC高性能集羣，從底層基礎設施到上層的訓練框架，做了多方面的技術創新。

2.1 計算：業界領先的超高密度，將單點算力性能提升至更高

服務器的單機性能是集羣算力的基礎。在非稀疏規格情況下，新一代集羣單GPU卡支持輸出最高 495 TFlops（TF32）、989 TFlops （FP16/BF16）、1979 TFlops（FP8）的算力。

針對大模型訓練場景，騰訊雲星星海服務器採用6U超高密度設計，相較行業可支持的上架密度提高30%；

利用並行計算理念，通過CPU和GPU節點的一體化設計，將單點算力性能提升至更高；

全面升級第四代英特爾至強擴展處理器，服務器PCIe帶寬、內存帶寬最高提升100%。

2.2 網絡：自研星脈高性能計算網絡，將集羣算力再提升20%

我們知道，模型參數量越大，對帶寬的需求就越高。成千上萬的GPU卡協同工作數週甚至更久，GPU 與 GPU 間、服務器與服務器節點之間存在海量的內部數據交互需求。

傳統的中小模型訓練，往往只需要少量 GPU 服務器參與，跨服務器的通信需求相對少，可以沿用通用的 100Gbps 帶寬。而萬億參數大模型訓練，是一種帶寬敏感的計算業務，往往是All-to-All的通信模式。

在大模型場景下，相比單點GPU故障隻影響集羣算力的千分之幾，一條鏈路的負載不均導致網絡堵塞，就會成爲木桶短板，影響到數十個甚至更多GPU的連通性。

同時，集羣訓練也會引入額外的通信開銷，導致 N 個 GPU 算力達不到單個GPU 算力的N 倍。業界開源的GPU集合通信庫（比如NCCL），也不能將網絡的通信性能發揮到極致。

如果說業界最新代次的GPU是跑車，那麼我們需要一條專業賽道，才能讓N個GPU組成的大模型訓練集羣最大限度地發揮潛力。

騰訊自研的星脈高性能計算網絡，就是這條專業賽道。這條賽道對GPU集羣網絡做了深度定製。增加了網絡節點帶寬，爲計算節點提供3.2T ETH RDMA高性能網絡，大幅降低了通信耗時的佔比。

這相當於同樣的GPU卡，用超帶寬網絡將集羣算力提至更高。實測結果顯示，搭載同樣的GPU，最新的3.2T星脈網絡相較1.6T網絡，讓集羣整體算力提升20%。

這條賽道，對“交通規則”也做了優化。在大規模的訓練集羣中，GPU之間的通信實際上由多種形式的網絡承載，有機間網絡，也有機內網絡。

傳統上的通信方案，存在大量的機間網絡通信，導致集羣的通信開銷很大。星脈高性能計算網絡將兩種網絡同時利用起來，將小流聚合爲大流，通過減少流量的數目，從而提升整網的傳輸性能。實測顯示，在大規模All-to-All場景下，星脈高性能計算網絡能幫助通信的傳輸性提升30%。

基於多軌道聚合的無阻塞網絡架構、主動擁塞控制和定製加速通信庫，目前，新一代集羣能提供業界領先的集羣構建能力，支持單集羣高達十萬卡級別的組網規模。

騰訊自研高性能集合通信庫TCCL，基於星脈網絡硬件平臺深度優化，在全局路徑規劃、拓撲感知親和性調度、網絡故障實時告警/自愈等方面融入了定製設計的解決方案。相對業界開源集合通信庫，爲大模型訓練優化40%負載性能，消除多個網絡原因導致訓練中斷問題。

在超大集羣場景下，仍然能保持優秀的通信開銷比和吞吐性能，滿足大模型訓練以及推理業務的橫向擴展。

2.3 存儲：TB級吞吐能力和千萬級IOPS，減少計算節點等待

近5年，模型參數量增長十萬倍，而GPU顯存只增長了 4 倍。理論上，雲上的池化資源能解決這一問題。

但訓練場景下，幾千臺計算節點會同時讀取一批數據集，存儲桶還面臨着高併發的問題。大模型的數據集主要是GB級的大文件，從加載模型到啓動完成需要數分鐘，如果GPU資源閒置，也會拖慢整體訓練效率。

如果說大模型算力中的網絡，是爲GPU修了一條專業賽道。那麼高性能存儲，則是一個“秒換輪胎”的維修站，提前備好數據，儘量減少計算節點的等待，讓集羣性能進一步逼近最優。

新一代集羣，引入了騰訊雲最新自研存儲架構，具備TB級吞吐能力和千萬級IOPS，支持不同場景下對存儲的需求。

COS+GooseFS方案，提供基於對象存儲的多層緩存加速，大幅提升端到端的數據讀取性能，爲大模型場景提供海量、極速、高性價比的存儲方案；將公開數據集、訓練數據、模型結果統一存儲到對象存儲COS中，實現數據統一存儲和高效流轉。GooseFS按需將熱數據緩存到GPU內存和本地盤中，爲大模型訓練提供低延時的本地化訪問能力，加速訓練過程、提升訓練效率。

CFS Turbo高性能並行文件存儲，採取多級緩存加速的方案。基於全分佈式架構，提供100GB/s帶寬、1000萬IOPS的極致性能。並通過持久化客戶端緩存技術，將裸金屬服務器本地NVMe SSD和Turbo文件系統構成統一命名空間，實現微秒級延時，解決大模型場景大數據量、高帶寬、低延時的訴求。同時，通過智能分層技術，自動對冷熱數據分層，節省80%的存儲成本，提供極致的性價比。

在底層架構之上，針對大模型訓練場景，新一代集羣集成了騰訊雲自研的TACO Train訓練加速引擎，對網絡協議、通信策略、AI框架、模型編譯進行大量系統級優化，大幅節約訓練調優和算力成本。

騰訊混元大模型背後的訓練框架AngelPTM，也已通過騰訊雲對外提供服務，幫助企業加速大模型落地。在騰訊雲上，企業基於TI 平臺的大模型能力和工具箱，可結合產業場景數據進行精調訓練，提升生產效率，快速創建和部署 AI 應用。

03、多層接入，算力更易獲取

由於大模型的體量單集羣的節點數非常大，初創公司通常會面臨問題：單集羣節點需要開多大，才能夠適應AI算力的規模？

面對這一需求，在算力層面，騰訊雲針對訓練、推理、測試及優化場景，提供匹配方案和產品。

其中，新一代HCC高性能計算集羣，面向大規模AI訓練。以專用集羣方式對外提供服務，騰訊雲將裸金屬雲服務器作爲節點，滿配最新代次的GPU，並結合自研存儲架構、節點之間通過自研星脈RDMA網絡互聯，給大模型訓練業務提供高性能、高帶寬和低延遲的一體化高性能計算。

後續，針對自動駕駛訓練、自然語言處理、AIGC大模型訓練、科研計算等場景下客戶的高算需求，通過騰訊雲裸金屬、雲服務器、容器、雲函數等多形態多層級接入能力，都可以快速獲取。

更大規模的大模型，正在逼近算力的邊界。以新一代集羣爲標誌，騰訊雲正在基於自研芯片、星星海自研服務器和分佈式雲操作系統遨馳，通過軟硬一體的方式，打造面向AIGC的高性能智算網絡，持續加速全社會雲上創新。

關注並星標我

公衆號回覆「算力」即可申請內測

鵝廠發佈的這個算力集羣，最快4天訓練萬億參數大模型

01、單純堆卡，算力並不能線性增長

02、最強算力背後是底層自研技術的突破

2.1 計算：業界領先的超高密度，將單點算力性能提升至更高

2.2 網絡：自研星脈高性能計算網絡，將集羣算力再提升20%

2.3 存儲：TB級吞吐能力和千萬級IOPS，減少計算節點等待

03、多層接入，算力更易獲取

.NET有哪些好用的定時任務調度框架

Python 將PDF轉爲PDF/A、PDF/X，以及PDF/A轉回PDF

elk3

Kafka存儲機制

aws語音呼叫調用，告警電話

深度學習框架火焰圖pprof和CUDA Nsys配置指南

爬蟲兩種繞過5s盾的方法

【轉】[C#] WebAPI 防止併發調用二（冥等性）

【轉】[SQL Server]關掉 SSMS 的 IntelliSense

號稱能打敗MLP的KAN到底行不行？數學核心原理全面解析

直播預告｜腦機接口學術周來襲，2023世界機器人大賽賽題解讀、學術分享搶先看！

全量容器化：騰訊雲日誌服務CLS的雲原生破局之道

程序員的6個真面目，沒有一個被冤枉！

鵝廠萬人熱議｜如何理解業務系統的複雜性？

給想玩AI的新手｜Stable Diffusion 保姆級入門手冊

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結