NVMe over TCP高性能文件存儲

你真的懂NVMe嗎?

在說NVMe之前,我們覺得有必要先聊一聊NVM(Non-Volatile Memory),即非易失性內存。從名字上看就知道,NVM是一種類內存式(訪問及尋址方式類似)的設備,它必須具備高速讀寫數據的能力,但它和普通內存的區別在於Non-Volatile,即在關機後再打開電源也可以檢索裏邊所存儲的數據。這種非易失性內存NVM設備有很多種實現,我們常用於服務器的大容量NVM是一種閃存,即Flash Memory。閃存是一種固態芯片,主流的閃存設備使用NAND技術來映射數據,這種芯片無需任何外部電源即可維護存儲的數據,它的讀寫速度比內存稍低,但無需藉助機械方式進行尋址,因此讀寫性能遠高於機械磁盤,容量也比內存要大,單GB成本近年來快速下降,大有成爲服務器上高速存儲介質主流設備的趨勢。

說完了NVM,那NVMe是什麼呢?NVM Express(NVMe)是用於在不同傳輸鏈路上,傳輸數據並將數據在NAND閃存中進行存儲和優化的協議,NVMe針對NAND閃存芯片進行了優化,該存儲協議提供了一個高帶寬和低延遲的標準框架。注意,NVMe其實是一個針對NVM設備進行管理、數據傳輸、優化的協議集合,其中包含了指令集、傳輸規範、傳輸介質、優化等方面的內容。

那麼不使用NVMe協議,能不能訪問NVM設備呢?當然也是可以的,甚至還可以使用SCSI、iSCSI方式訪問這些設備,但SCSI這些協議起初是針對機械磁盤設計的,從尋址到數據傳輸,和這種高速電介質都格格不入,爲了讀寫數據,SCSI協議還要做一次轉換才能將數據訪問到NVM設備。使用傳統協議訪問這種高速存儲設備,效果就像是買了一輛超級跑車,但是非得讓你用腳騎着開,完全跑不出跑車的效果,所以對於這種NVM高速設備,採用NVMe協議訪問是首選。

NVMe協議組成架構

有了設備和協議就可以了嗎?

有了NVM設備和訪問這個設備的協議NVMe,就一定能享受到這些設備帶來的高性能了嗎?答案是否定的。

首先要說到的,就是數據傳輸的問題,數據傳輸指的就是NVM設備到服務器內存之間的傳輸。外圍組件互連Express(PCIe)是目前使用最多的傳輸介質。NVM設備及NVMe協議設計之初,也是先面向PCIe或PCI Hub的。通過PCI訪問NVM設備會有什麼問題呢?很容易就能想到,一臺服務器上PCI接口是有限的,因此也不能接入很多的NVM設備,那麼容量就會受到限制了。此外,數據中心內其它服務器也很難通過PCI訪問另一臺服務器上的NVM設備。這就很大限制了NVM設備的使用。

除了PCI之外,還有什麼方式能進行NVM設備上數據的傳輸嗎?當然有,這就是NVMe over Fabric,所謂的Fabric有幾種方式,可以是Fibre Chanel,即目前磁盤陣列中使用的傳輸網絡,或者InfiniBand。NVMe-oF使得一臺服務器可以通過網絡的方式,通過NVMe協議直接訪問遠端另一臺服務器上的NVM設備,帶寬和延時近似於設備插在本地服務器上,這就極大拓寬了NVM設備的使用範圍。但細心的讀者應該很快能反應過來,在現代數據中心,TCP網絡使用更廣,因此,NVMe組織在2019年推出了NVMe over TCP技術,從而使服務器通過TCP網絡就可以訪問遠端的NVM設備了。

NVMe over TCP技術作爲創新型技術,從推出就瞄準了通過TCP互聯的,更廣闊的雲和數據中心大規模使用NVM設備的場景。

其次是訪問效率的問題,與SCSI等協議不同,NVMe協議實現了多隊列的架構和指令集,更能發揮多核CPU服務器的處理能力,使該協議指令集在多核CPU服務器上發揮更好的性能,存儲系統如果不能針對這些特點進行深入的優化,也不能充分享受到新型介質和協議帶來的紅利。而針對NVMe協議和設備進行的系統級優化,是包括焱融科技在內的軟件定義存儲廠商需要攻克的難關。

此外,還需要考慮應用訪問接口的問題。目前,人工智能、高性能計算系統主要通過文件系統訪問非結構化數據,構建以NVMe協議爲基礎的,以高帶寬、低延時爲核心要求的高性能文件系統是應用系統的核心要求,這也是應用場景驅動創新的出發點

YRCloudFile+LightOS 聯合解決方案

LightOS是以色列技術型存儲創新企業,焱融科技與Lightbits聯合方案,可以爲用戶提供NVMe多隊列併發訪問的極致性能,最重要的是,能將NVMe設備通過TCP方式,組成高性能分佈式文件系統,向上層應用提供文件訪問服務。對上層應用而言,完全無需關心底層存儲細節、數據如何放置,即可使用高IOPS、高帶寬、極低延時的文件共享訪問服務。

聯合方案參考架構

焱融科技與Lightbits OS對參考架構進行了性能、可靠性、可用性的測試,測試架構如下所示:

 

各個服務器之間使用25Gb以太網進行連接,使用三臺服務器搭建YRCloudFile集羣,在常用的TCP網絡條件下,單個客戶端節點的4K隨機讀IOPS可達38萬,寫IOPS達30萬,讀寫延時均低於400us。多客戶端訪問,各客戶端性能互不干擾,集羣可爲每個客戶端穩定提供相同的功能。

在大IO順序讀寫測試中,單客戶端讀寫帶寬均達到2.8GB/s,接近25Gb網絡帶寬上限。

使用vdbench模擬200,000個不同文件大小進行讀寫帶寬測試,對4K小文件的讀寫性能爲1280MB/s和1040MB/s,對128KB大文件讀寫性能可達2800MB/s。

聯合方案優勢

YRCloudFile+LightOS聯合方案,具備以下優勢:

  • 只需藉助現有的以太網絡,即可快速搭建基於全NVMe的分佈式文件系統,無需購買額外的專用交換設備和網卡
  • 多個上層應用服務器可通過文件接口共享訪問底層海量非結構化數據
  • 業界一流的文件系統隨機讀寫、順序讀寫性能
  • 數據去重壓縮,TCO減少20%-50%
  • 單集羣可達百PB空間,承載百億文件。滿足海量的文件數量與空間需求
  • 可同時提供文件存儲和塊存儲接口,滿足不同業務接口的需求
High performance file system is critical infrastructure facility to applications like AI. YanRong Tech and Lightbits Lab cooperate closely, announce the NVMe/TCP file system with high performance and massive small files support, providing an innovative solution to all customers and partners.
------ Alfred Chase Hui, Lightbits亞太區銷售總監

該聯合方案非常適用於人工智能、高性能計算、基因科學、影視渲染、氣象分析、資源勘探等依賴高性能文件系統,以及擁有海量非結構化數據的應用場景,能有效幫助客戶提升業務系統對非結構化數據的訪問性能,從而改進業務運行效率,解決數據分析的系統瓶頸。

如需獲取解決方案完整版本,查看推薦架構以及參考性能指標,請發送郵件聯繫我們:[email protected]

 

Lightbits Labs

成立於2016年的Lightbits Labs正在全球範圍內重塑現代雲基礎設施。公司的使命是重構存儲和網絡在雲數據中心的部署方式。Lightbits的軟件定義分離式存儲解決方案爲企業私有云、軟件即服務(SaaS)和基礎架構即服務(IaaS)提供商節省大量時間和成本,同時實現更高的應用程序性能和公共雲級別的可擴展性。Lightbits Labs最先認識到全NVMe高性能存儲介質及協議與標準TCP網絡相結合所帶來的機會。其LightOS®軟件和LightField™存儲加速卡是第一個提供在標準TCP網絡上運行的全局閃存轉換層(GFTL)的NVMe/TCP解決方案。

焱融科技

焱融科技是一家以軟件定義存儲技術爲核心競爭力的高新技術企業,在分佈式存儲等關鍵技術上擁有自主知識產權,是高性能文件存儲和容器存儲的領導者。焱融科技核心產品YRCloudFile在全球IO500性能測試中,進入世界前六。同時,YRCloudFile是國內首個進入CNCF Landscape的容器存儲產品。焱融科技針對各行業業務特性,打造個性化行業解決方案,提供一站式的產品與服務。焱融科技系列產品已服務於人工智能、金融、政府、製造業、互聯網等行業的衆多客戶。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章