鵝廠發佈的這個算力集羣,最快4天訓練萬億參數大模型

圖片

圖片

大模型要成功,算力是關鍵。

這是騰訊雲面向大模型訓練場景,發佈的全新一代的HCC高性能計算集羣性能參數:

“算力性能和上一代相比提升3倍,服務器接入帶寬從1.6T提升到3.2T。”

採用最新一代騰訊雲星星海自研服務器,並搭載NVIDIA H800 Tensor Core GPU的這代HCC高性能集羣,單GPU卡支持輸出最高1979 TFlops的算力。

具體強在哪裏?

去年10月,騰訊完成首個萬億參數的AI大模型——混元NLP大模型訓練。在同等數據集下,將訓練時間由50天縮短到11天。如果基於新一代集羣,訓練時間將進一步縮短至4天。

01、單純堆卡,算力並不能線性增長

模型熱度持續高漲,但要訓練一個成功的大模型,算力,算法、數據三者缺一不可。

越強的大模型,越需要更強的算力來完成訓練。擁有強大的算力是AI大模型成功的關鍵。

在單體服務器計算能力有限的情況下,需要將上千臺服務器相連,打造大規模、分佈式的高性能計算集羣。業界標杆的大模型,對訓練算力需求普遍非常高,使用成千上萬張GPU卡。

如此龐大的參數規模,單獨一塊GPU運算卡甚至都完成不了最基本的裝載,這也使得我們要用網絡聯接成千上萬的服務器組建大規模算力集羣,爲大模型提供所需的算力。

HCC高性能計算集羣就是在這樣的需求下誕生,但是,要把這麼多的卡“串聯“起來,背後需要很強的技術能力。

因爲根據木桶效應,單純堆卡並不能帶來算力的線性增長。它需要的是計算、存儲、網絡以及上層的框架等各個環節全面協調配合,才能輸出一個高性能、高帶寬、低延遲的智算能力平臺。

圖片

02、最強算力背後是底層自研技術的突破

爲了提供極致的算力輸出,騰訊雲HCC高性能集羣,從底層基礎設施到上層的訓練框架,做了多方面的技術創新。

2.1 計算:業界領先的超高密度,將單點算力性能提升至更高

服務器的單機性能是集羣算力的基礎。在非稀疏規格情況下,新一代集羣單GPU卡支持輸出最高 495 TFlops(TF32)、989 TFlops (FP16/BF16)、1979 TFlops(FP8)的算力。

針對大模型訓練場景,騰訊雲星星海服務器採用6U超高密度設計,相較行業可支持的上架密度提高30%;

利用並行計算理念,通過CPU和GPU節點的一體化設計,將單點算力性能提升至更高;

全面升級第四代英特爾至強擴展處理器,服務器PCIe帶寬、內存帶寬最高提升100%。

2.2 網絡:自研星脈高性能計算網絡,將集羣算力再提升20%

我們知道,模型參數量越大,對帶寬的需求就越高。成千上萬的GPU卡協同工作數週甚至更久,GPU 與 GPU 間、服務器與服務器節點之間存在海量的內部數據交互需求。

傳統的中小模型訓練,往往只需要少量 GPU 服務器參與,跨服務器的通信需求相對少,可以沿用通用的 100Gbps 帶寬。而萬億參數大模型訓練,是一種帶寬敏感的計算業務,往往是All-to-All的通信模式。

在大模型場景下,相比單點GPU故障隻影響集羣算力的千分之幾,一條鏈路的負載不均導致網絡堵塞,就會成爲木桶短板,影響到數十個甚至更多GPU的連通性。

同時,集羣訓練也會引入額外的通信開銷,導致 N 個 GPU 算力達不到單個GPU 算力的N 倍。業界開源的GPU集合通信庫(比如NCCL),也不能將網絡的通信性能發揮到極致。

圖片

如果說業界最新代次的GPU是跑車,那麼我們需要一條專業賽道,才能讓N個GPU組成的大模型訓練集羣最大限度地發揮潛力。

騰訊自研的星脈高性能計算網絡,就是這條專業賽道。這條賽道對GPU集羣網絡做了深度定製。增加了網絡節點帶寬,爲計算節點提供3.2T ETH RDMA高性能網絡,大幅降低了通信耗時的佔比。

這相當於同樣的GPU卡,用超帶寬網絡將集羣算力提至更高。實測結果顯示,搭載同樣的GPU,最新的3.2T星脈網絡相較1.6T網絡,讓集羣整體算力提升20%。

這條賽道,對“交通規則”也做了優化。在大規模的訓練集羣中,GPU之間的通信實際上由多種形式的網絡承載,有機間網絡,也有機內網絡。

傳統上的通信方案,存在大量的機間網絡通信,導致集羣的通信開銷很大。星脈高性能計算網絡將兩種網絡同時利用起來,將小流聚合爲大流,通過減少流量的數目,從而提升整網的傳輸性能。實測顯示,在大規模All-to-All場景下,星脈高性能計算網絡能幫助通信的傳輸性提升30%。

圖片

基於多軌道聚合的無阻塞網絡架構、主動擁塞控制和定製加速通信庫,目前,新一代集羣能提供業界領先的集羣構建能力,支持單集羣高達十萬卡級別的組網規模。

騰訊自研高性能集合通信庫TCCL,基於星脈網絡硬件平臺深度優化,在全局路徑規劃、拓撲感知親和性調度、網絡故障實時告警/自愈等方面融入了定製設計的解決方案。相對業界開源集合通信庫,爲大模型訓練優化40%負載性能,消除多個網絡原因導致訓練中斷問題。

在超大集羣場景下,仍然能保持優秀的通信開銷比和吞吐性能,滿足大模型訓練以及推理業務的橫向擴展。

2.3 存儲:TB級吞吐能力和千萬級IOPS,減少計算節點等待

近5年,模型參數量增長十萬倍,而GPU顯存只增長了 4 倍。理論上,雲上的池化資源能解決這一問題。

但訓練場景下,幾千臺計算節點會同時讀取一批數據集,存儲桶還面臨着高併發的問題。大模型的數據集主要是GB級的大文件,從加載模型到啓動完成需要數分鐘,如果GPU資源閒置,也會拖慢整體訓練效率。

如果說大模型算力中的網絡,是爲GPU修了一條專業賽道。那麼高性能存儲,則是一個“秒換輪胎”的維修站,提前備好數據,儘量減少計算節點的等待,讓集羣性能進一步逼近最優。

新一代集羣,引入了騰訊雲最新自研存儲架構,具備TB級吞吐能力和千萬級IOPS,支持不同場景下對存儲的需求。

COS+GooseFS方案,提供基於對象存儲的多層緩存加速,大幅提升端到端的數據讀取性能,爲大模型場景提供海量、極速、高性價比的存儲方案;將公開數據集、訓練數據、模型結果統一存儲到對象存儲COS中,實現數據統一存儲和高效流轉。GooseFS按需將熱數據緩存到GPU內存和本地盤中,爲大模型訓練提供低延時的本地化訪問能力,加速訓練過程、提升訓練效率。

圖片

CFS Turbo高性能並行文件存儲,採取多級緩存加速的方案。基於全分佈式架構,提供100GB/s帶寬、1000萬IOPS的極致性能。並通過持久化客戶端緩存技術,將裸金屬服務器本地NVMe SSD和Turbo文件系統構成統一命名空間,實現微秒級延時,解決大模型場景大數據量、高帶寬、低延時的訴求。同時,通過智能分層技術,自動對冷熱數據分層,節省80%的存儲成本,提供極致的性價比。

圖片

在底層架構之上,針對大模型訓練場景,新一代集羣集成了騰訊雲自研的TACO Train訓練加速引擎,對網絡協議、通信策略、AI框架、模型編譯進行大量系統級優化,大幅節約訓練調優和算力成本。

騰訊混元大模型背後的訓練框架AngelPTM,也已通過騰訊雲對外提供服務,幫助企業加速大模型落地。在騰訊雲上,企業基於TI 平臺的大模型能力和工具箱,可結合產業場景數據進行精調訓練,提升生產效率,快速創建和部署 AI 應用。

03、多層接入,算力更易獲取

由於大模型的體量單集羣的節點數非常大,初創公司通常會面臨問題:單集羣節點需要開多大,才能夠適應AI算力的規模?

面對這一需求,在算力層面,騰訊雲針對訓練、推理、測試及優化場景,提供匹配方案和產品。

其中,新一代HCC高性能計算集羣,面向大規模AI訓練。以專用集羣方式對外提供服務,騰訊雲將裸金屬雲服務器作爲節點,滿配最新代次的GPU,並結合自研存儲架構、節點之間通過自研星脈RDMA網絡互聯,給大模型訓練業務提供高性能、高帶寬和低延遲的一體化高性能計算。

後續,針對自動駕駛訓練、自然語言處理、AIGC大模型訓練、科研計算等場景下客戶的高算需求,通過騰訊雲裸金屬、雲服務器、容器、雲函數等多形態多層級接入能力,都可以快速獲取。

更大規模的大模型,正在逼近算力的邊界。以新一代集羣爲標誌,騰訊雲正在基於自研芯片、星星海自研服務器和分佈式雲操作系統遨馳,通過軟硬一體的方式,打造面向AIGC的高性能智算網絡,持續加速全社會雲上創新。

關注並星標我

公衆號回覆「算力」即可申請內測

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章