UCloud可支撐單可用區320,000服務器的數據中心網絡系統設計

2018年10月份,UCloud數據中心基礎網絡完成了V4新架構的落地,自此,新建的數據中心(下簡稱DC)全面升級到25G/100G網絡,極大提升了DC容量和DC間互聯的性能。V4架構下的單可用區可提供320,000個服務器接入端口,是此前V3架構的4倍。並且支持無損網絡特性,提供可用區資源的水平擴展和滾動升級能力。上線以來,新架構有力保障了UCloud福建GPU可用區開放、北京二可用區B/C/D擴容等需求。

對比雲產品通過軟件的靈活性來創造豐富的用戶價值,公有云物理網絡更注重規劃的前瞻性與設計的合理性。其目標是簡單、穩定、高效。通過對上層虛擬網絡提供極度可靠的、一維尋址的邏輯連通面,來幫助實現上層產品“軟件定義一切”的使命。下文就將詳述我們秉承這種理念設計DCN V4架構的細節。

UCloud DCN V3架構設計

UCloud公有云以可用區(下簡稱AZ)爲最小資源池單位對外提供服務,一個可用區由一個或多個數據中心組成。UCloud數據中心基礎網絡架構(下簡稱DCN)在2016年升級到V3架構,如下圖所示:

圖:UCloud DCN V3架構

V3架構的設計目的:

  • 全面升級到10G接入、40G互連;
  • 徹底拆掉了堆疊,避免了堆疊的種種弊端;
  • 採用了兩級CLOS、Spine-Leaf架構,實現了一定的水平擴展能力;
  • 數據中心核心交換機爲Spine,提供標準的BGP路由接入,TOR/Border爲Leaf;業務服務器的網關落在TOR Leaf上;DC的 Border Leaf連接城域網POP機房,實現DC到DC外的互通,一個DC即一個可用區。

V3解決了V2時代堆疊和MC-LAG的弊端,CLOS架構有水平擴展能力,全網統一接入方式提升了網絡部署效率。

V3上線後,適逢UCloud發力建設海外節點,爲首爾、東京、華盛頓、法蘭克福等節點在短時間內的快速落地,提供了有效支撐。

V3架構的新挑戰

近兩年,隨着UCloud業務高速發展,以及25G/100G網絡設備的成熟,業務對網絡的性能提出了全新需求,V3架構逐漸顯示出一些不足之處,主要如下:

  • 性能不足

分佈式計算、實時大數據、NVMeoF等的發展,要求網絡提供更大的帶寬和更低的時延,以及服務質量保證。

以NVMeoF爲例,網絡存儲比起傳統存儲,在網絡設備轉發、傳輸、TCP/IP協議棧上有額外開銷。近來RDMA技術的成熟,極大降低了TCP/IP協議棧開銷,提升了IO性能。但我們在實踐中發現,V3架構下的輕微擁塞,可能造成大量RMDA報文重傳,佔用相當帶寬並造成業務性能下降,這種網絡性能上的瓶頸需要突破。

  • 容量不足

用戶常希望在一個可用區有無限的資源可以擴容。V3的兩級CLOS架構水平擴容能力,最終受限於Spine設備端口數,一個DC網絡大概能容納的規模爲一兩萬臺服務器或一兩千個機架。而一座機房可以有上萬甚至上十萬的機架,在V3架構下,需要做多個DC網絡,DCN之間通過POP互連互通,不但性能難以提升,而且成本巨大。

  • 靈活性不足

全網統一接入方式,便於大規模上架佈線部署工作,確確實實提高了效率,但同時帶了靈活性下降。比如有的業務要求集羣服務器二層可達,有的業務要求經典網絡做Overlay……總之,整齊劃一的網絡規劃不能滿足所有主流的業務需求。

DCN V4架構的設計與優化

爲了解決上面的問題,2017年底開始,團隊對DCN架構進行重新設計、硬件選型和標準化,並於2018年10月份完成DCN V4整套方案並在新建數據中心落地,整體架構如下:

圖:UCloud DCN V4架構

新架構中,我們主要做了如下優化:

1. 硬件整體升級到25G/100G平臺

2017年底到2018年上半年,各商用交換機大廠的25G/100G網絡設備逐漸成熟,25G/100G光模塊價格也趨於合理,同時GPU、實時大數據、NVMeoF等業務需求爆發,IO瓶頸從服務器內部轉移到了網絡上。因此,我們開始着手將硬件從10G升級到25G平臺。

我們從2017年底開始,對各主流交換機、光模塊、光纖、服務器網卡廠商的主流25G/100G產品進行了選型、交叉測試、線上小批量,投入了8個月的時間,累計交叉測試超過300個產品組合,最終確定整套25G/100G硬件產品。

本月已上線的福建GPU可用區,利用此架構,同時支持10G/25G物理網絡。25G網絡帶來更高的集羣運算效率,和普通可用區提供的GPU雲主機相比,整體性能翻倍,這對AI訓練這樣看重絕對性能的場景非常重要。

圖:GPU物理雲10G/25G網關集羣

2. 3級CLOS的設計

圖:2級CLOS

CLOS架構要求下一級設備需要跟上一級設備full-mesh,因此在V3的2級CLOS架構下,Leaf層的接入交換機(下簡稱AS)必須連接到所有Spine層的核心交換機(下簡稱DS),也就是2臺DS;如果設計爲4臺DS,那麼AS就必須四上連到每一臺DS,複雜度直線上升。因此DCN整體容量取決於DS設備的總端口數,DS設備的槽位數越多、單槽位端口密度越大,那麼一個DCN可接入服務器容量就越大。

圖:3級CLOS

V4改用新的3級CLOS設計。Leaf層的每一臺匯聚交換機(下簡稱CS)需要上連到所有Spine層的DS。比如一臺典型的CS是32端口100G設備,16口上連DS,16口下聯AS:

  • 設計的2臺DS,1臺CS出8個口連到DS1、8個口連到DS2,總共16個上連,每臺DS消耗8個端口;
  • 如果設計的是4臺DS,1臺CS的16個上連口分成4組,每組4個口分別上連到DS1/2/3/4,每臺DS消耗4個端口;
  • 如果是8臺DS,那麼1臺CS只需要消耗DS的2個端口……

可以看到,設計的Spine層的設備越多,每臺CS需要DS的端口數越少,可以接入的CS數量就越多,在其他條件不變的情況下,整個DCN接入容量就越大。

我們通過2級CLOS→3級CLOS的架構變化,使得整個DCN的接入容量得以提升,理論上,隨着硬件技術的發展,設計容量可以提升到無窮大。這就解決了DCN容量上的問題。按我們目前的設計,單DC容量最大可以提供80,000個服務器接入端口,單可用區可達到320,000個,是DCN V3時代的4倍,能滿足UCloud所有地域未來幾年平滑擴容的需要。

3. POD的引入

2級CLOS變爲3級CLOS之後,多出了一個匯聚層,我們把一組匯聚交換機及其下連的接入交換機、以及接入交換機帶的機架,總體稱爲一個POD。單個POD提供一致的網絡能力,包括:

  • 一致的連接方式。一個POD裏,所有AS到CS的連接方式是一樣的,比如都是1*100G單線互連或者都是2*100G;所有服務器到AS的連接也是一致的,比如每臺服務器1*25G連到AS或者2*25G連到AS。
  • 一致的網絡特性。一個POD支持的網絡特性是一樣的,比如支持ECMP、支持開啓QoS、支持直接接入到公網等。

這讓我們可以根據業務對網絡性能和特性的要求,針對性的開設POD。

例如,當前的業務分區有公有云區、物理雲區、託管雲區、網關區、管理區、IPv6區等,其中公有云區、網關區、管理區、IPv6區對基礎網絡的要求基本一致,在新的POD設計思路下,均合併爲“內網POD”。而大數據區、雲存儲區等網絡IO極高的業務,則設置了“高性能內網POD”,具有每臺服務器2*25G全線速接入的網絡能力, 提供QoS和無損網絡特性。此外,還有“綜合POD”應對要求公網/其他特殊網絡需求的服務器接入,“混合雲POD”提供裸金屬或用戶私有云接入等,滿足不同的業務需求,來解決靈活性問題。

總的來說,POD是按照網絡能力設計的,滿足不同業務的需求,且能避免成本浪費,控制CAPEX,並避免按業務分區導致過多的網絡分區,控制維護的複雜度。

4. DC Group

UCloud公有云資源池分爲“地域”(一般是一個地理上的城市)和“可用區”(簡稱AZ,兩個可用區一般距離10km以上,基礎設施隔離)兩級。

一個AZ可以包含多個DC,但實際上,由於V3架構下DC都是連接到POP、與其他DC互通,這就需要拉光纜、架設波分,帶來帶寬瓶頸和時延上升。所以即使兩個DC距離非常近,作爲一個AZ資源池也不合適,作爲兩個AZ則與AZ的距離要求相悖、也不合適。

圖:DC Group產生前後對比

V4架構提出了「DC Group」概念,將地理位置相近的DC間full-mesh連接起來,作爲同一個AZ對外提供服務。帶來的好處有:

  • 網絡時延低。DC Group內的DC之間距離非常近,通常不超過10km,由此帶來的時延在0.1ms以內;
  • 增加冗餘度和帶寬。由於DC之間距離近,光纜成本也低,我們可以增加更多的光纜連接,一方面保證足夠的冗餘度,另一方面增加足夠的帶寬;
  • 可滾動升級。可以通過新建新一代DC的方式,滿足新業務在原AZ裏上線的要求,且對運行中的DC基本無影響。

例如,前段時間我們發佈了高性能SSD雲盤產品。在業務部署階段,恰逢北京二可用區D的空閒機櫃不多,如果等申請到新機櫃再部署,就浪費了寶貴的時間。而如果只把產品部署在新開的可用區,就無法照顧原可用區用戶的需要。

這個矛盾在DC Group架構下,就可以通過添加新DC得到良好解決。

總結

UCloud總體網絡設計中,基礎網絡的目標是「穩定」和「高效」。基礎網絡通過組織物理線路、經典網絡設備和網絡技術,形成了一張穩定而且高性能的網絡底層,爲上層業務提供IP連通性。基礎網絡下承機房基礎設施、上接業務,需要解決「業務需求變化快」和「基礎網絡升級難」這一對永恆的矛盾。DCN數據中心網絡是基礎網絡最重要的一個組成部分。

圖:UCloud總體網絡設計

我們過去一年所重新設計的DCN V4架構,令新建的DC全面升級到25G/100G、支持無損網絡特性、提升了DC容量和DC間的性能、提供了AZ資源的水平擴展和滾動升級能力。總而言之,平衡了「新需求」和「老架構」之間的矛盾,可以滿足數年的發展需求。未來,基礎網絡會繼續緊跟技術發展潮流,爲各公有云產品提供更穩定、更高效的底層網絡。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章