Facebook:進擊的網絡架構

如今,分佈式計算變得越來越分散,甚至有的人覺得它是混亂的。隨着網絡的發展,數據中心的網絡結構已經成爲決定應用程序是否能良好運行的最重要因素。如果數十臺或數百臺服務器在數據中心之間進行通信時,速度不可預測,帶寬不夠大,不能接收和發送數據,延遲還高,那麼這些服務器將沒有存在的意義。

因此,創建網絡成了棘手的事情。就像當年Facebook一樣,Facebook有一個巨大的分佈式PHP應用程序(其中包含大量機器學習)——它可以將23億用戶通過全球15個數據中心的數百萬臺服務器連接在一起,並且該網絡會隨着時間的推移而發展,以滿足社交網絡業務所需的性能、彈性和成本目標。在10Gb/s和40Gb/s的以太網中,網絡一直是Facebook整體IT預算中增長最快的部分,其主要原因是交換機ASIC上的帶寬和端口計數都受到了限制,而不僅僅是帶寬。但隨着商用市場上最新一代的交換機ASIC的出現,端口數量和每個端口的帶寬都呈上升趨勢,Facebook現在有一個前所未有的機會來調整其網絡,從根本上削減成本,並且可以擁有很多比上一代交換機更好的性能。

正如我們之前所指出的,數據中心成本的增加關鍵不在於帶寬,而在於早期的100 GB/s交換機散熱性能不好,價格昂貴,並且受端口限制。200 GB/s或400 GB/s端口的交換機ASIC的出現意味着每個交換機的端口數量可以比早期的100 GB/s交換機增加一倍到四倍,大企業無需在管道方面投入更多,只需減少網絡層數和架構跳數,同時仍能在單個架構中跨越10萬臺服務器和存儲服務器。

這種帶寬的高基數使用——只是一個有趣的說法,交換機製造商利用芯片組進步所帶來的額外帶寬,使更多的端口能夠以設定的速度運行。一年多前Broadcom宣佈其“Tomahawk-3”StratusXGS ASIC,它可支持32個以400Gb/s運行的端口或128個以100Gb/s運行的端口。去年10月,Arista Networks 推出了基於Tomahawk-3的7060X交換機。

當時,Tomahawk-3的高基數實現還停留在理論上,但在聖何塞舉行的OCP全球峯會上,Facebook展示了它是如何將該理論應用於下一代交換機(Minipack)以及與之協同工作的F16架構。

Facebook於2011年在Prineville開設了第一個數據中心時,它擁有定製的服務器和存儲設備,並且仍在服務器機架和商用模塊化交換機頂部使用商用固定端口交換機。當時街頭巷尾都在說,Arista和思科系統公司當時是交換機的主要供應商,然而這些交換機並不便宜,因此當時網絡支出在整個數據中心成本的佔比高達25%並很快升至30%。如此高的成本在Facebook所需的規模上是不可接受的,更糟糕的是,在HPC中心或大型企業也會採用相同的方法構建網絡。隨後Clos葉脊網絡從超大規模中脫穎而出,成爲數據中心網絡的主流架構。適合在超大規模數據中心中跨越10萬臺服務器的交換機和結構設計非常重要,它可以將數百、數千或數萬臺服務器捆綁在一起,並且能節省大量成本。

查看更多內容

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章