超融合架構的存儲重要性分析與招商證券超融合轉型實踐

作者簡介:

匡嶽林 招商證券信息技術中心高級經理,數據庫&存儲工程師

長期致力於數據庫運維,存儲規劃等工作,對數據庫優化,存儲分級管理等有豐富經驗,近年來緊跟分佈式數據庫,分佈式存儲等新興技術,對分佈式數據庫和分佈式存儲的落地使用有獨到的心得。

摘要:

本文通過分析招商證券爲何在數字化和智能化時代變革下選擇超融合架構、產品選型的評估過程,並分享超融合架構運維的心得體會,如實地講述了超融合架構在招商證券落地並取得良好的效益及超融合架構中分佈式存儲模塊的關鍵作用,希望對未來計劃落地超融合架構的同行有借鑑的意義。

1. 背景分析

1.1招商證劵原有IT架構概述

招商證券近年來一直非常關注如何通過金融科技提升公司各項業務指標以及整體競爭力,並從開發、運營到決策進行了大量數字化和智能化轉型的工作,自然對IT基礎架構部門也提出了更高的要求。基礎架構的虛擬化、雲化已是如火如荼地改造進行中。

IT基礎資源存在三種類型的虛擬機:1.VMware、Hyper-V、KVM等虛擬化工具生成的虛擬機;2.超融合生成的虛擬機;3.私有云生成的虛擬機。不同的虛擬機類型,都有其具體的使用場景:

virtual-machine.png

1.2爲何評估超融合架構

考慮引入超融合架構主要有兩個方面的原因,一方面是超融合我們很早就在關注,通過和主流廠商的交流,看到近幾年相關產品從功能到案例已經比較成熟。另一方面,原有的架構尤其在存儲方面暴露的問題較多:

1)傳統的存儲上線比較慢,而且隨着數量和品牌越來越多,運維也比較複雜;

2)擴展性不好,不同的存儲池之間的資源使用也不均衡,所以每次需求都要做較長遠資源規劃和相應預算;

3)從採購、使用到後期維保的成本偏高。

在2017年,我司某些業務需要擴容新的IT資源,系統初期設計的方案爲10臺PC Server+2臺磁盤陣列+2臺光纖交換機,各專家一致認爲其成本較高,項目的成本收益比較低,而且採購上線需要的週期較長,所以藉此機會,公司內部系統評估了超融合產品,相對於傳統部署架構,超融合具有資源彈性、敏捷部署、資源利用率高、擴展簡單方便等優點。據測算,如果部署超融合架構,我們可以在不影響用戶使用體驗的前提下多部署3-5倍的系統,故最終選擇超融合方案。

2. 超融合架構中存儲的重要性分析與評估

2.1傳統存儲架構和超融合存儲架構對比

相對於傳統的架構,由於超融合的架構包含了存儲、虛擬化、網絡甚至服務器(一體機模式)等諸多模塊,可能會無法找到評估的要點。但通過下圖的架構對比可以看到,超融合架構影響最大的還是存儲的部分。

hci-vs-vmware-fc-san2.png

相對於傳統架構,超融合架構有以下幾個大的區別:

  1. 存儲從集中的控制器架構演變爲分佈式架構,相當於每個服務器都成爲一個控制器,另外,每個節點都會配置SSD盤作爲緩存;
  2. 使用標準和易於維護的x86服務器與萬兆以太網交換機替代專有的存儲硬件和網絡;
  3. 存儲不再是由 RAID 構成的不同存儲空間,而是一個統一的可彈性擴展的存儲池,並且具備更強的擴展能力;
  4. 計算虛擬化和存儲部署於同一服務器節點。

以上對比可以看出,存儲的架構,存儲軟硬件構成和存儲部署模式都發生巨大的變化,而作爲 IT 人員,我們非常清楚,存儲在整個系統中的地位,不僅關乎業務連續性和數據可靠性,還直接影響到系統運行效率。另一方面,超融合帶來的價值,例如彈性擴展,高併發性能等,其實都是分佈式存儲帶來的。基於此,分佈式存儲成爲對各超融合廠商的產品評估的重點。

2.2超融合架構的分佈式塊存儲評估的要點

對於超融合架構的分佈式存儲評估,我們主要從架構、實現、功能、實際的POC、案例情況進行了評估。

2.2.1 商業產品還是基於開源

目前國內超融合的玩家比較多,但如果從核心的存儲來分的話就比較清晰,基本上國外的Nutanix、VMware等都是清一色的商業產品,國內除了SmartX,其他大部分廠商都是基於Ceph,GlusterFS等開源產品。我們內部的選擇是商業的產品,原因如下:一方面是該架構計劃在生產系統使用,我們希望原廠有真正的掌控和開發能力,而不是被動跟隨開源社區。另一方面,類Ceph架構數據管理機制比較擅長海量的對象,對於IOPS和時延要求較高的場景並不適合,相對於而言,Nutanix、SmartX的架構基於主要是圍繞結構化存儲專門設計的,相關場景下效率更高。

2.2.2 可靠性驗證

雖然目前分佈式存儲的副本技術已經非常成熟,但我們還是針對具體的產品進行了比較多的可靠性相關驗證,包括磁盤、整個節點等層面的故障模擬,另外,針對超融合特殊的部署方式,我們對分佈式存儲所在的控制器虛擬機的高可用也進行了故障模式,並從虛擬機角度評測業務的恢復時間,相關測試結果都達到了生產系統的要求。

2.2.3 性能

超融合架構下的性能優勢主要來自於以下方面:

1.分佈式的架構提升聚合性能;

2.每個節點的SSD緩存目前容量已經可以比較大,大部分情況應用都可以獲得SSD的訪問性能;

3.因爲採用了超融合部署的模式,VM可以直接訪問本地的存儲,減少訪問網絡的延遲,這是超融合獨有的優勢,並不是所有的分佈式存儲都具備這樣的特性,例如Ceph採用哈希算法分佈數據,沒有辦法實現數據的精準放置,目前Nutanix和SmartX都支持這樣的特性。

通過以上架構和實現的優化,例如SmartX超融合單節點實測4K隨機讀性能當時已經可以超過4萬IOPS,而目前如果將SSD換成NVM E接口,單節點的4K隨機讀可以超過 9 萬IOPS,對於最小系統的三個節點的話,已經可以接近目前中端的全閃的產品,如果擴展的話還可以做到更高。

關於超融合架構的性能,還需要關注的一個點就是分佈式存儲對資源的消耗是否合理,例如Ceph的資源消耗就比較高,也是不適合超融合架構的一個原因。

2.3 結論

除了以上重點指標,我們還針對可擴展性,運維便利性進行了充分的評估,整體的結論是目前一線的專業超融合產品已經可以滿足生產環境的需求,並最終選擇了5節點 SmartX超融合用於滿足新業務需求,而這一部分,在內部我們也是歸屬到分佈式塊存儲池的部分。

3. 超融合架構實踐效果和心得體會

在引入超融合架構的兩年中,SmartX集羣已被擴容至8個節點,一直以來都運行穩定。有約半年的時間整個集羣存儲使用率超過90%,甚至最高峯的時候達到了99%。該集羣仍然能夠穩定運行,沒發生過故障及數據丟失。除了運行穩定的優點外,產品體現了以下幾個優勢:

1.系統的可擴展性確實非常好,招商證券在兩年內先進行了一次 SSD 和硬盤的擴容,然後進行了一次3個節點擴容,並且這次擴容採用了不一樣的服務器品牌,CPU、內存、SSD都不一樣,但SmartX超融合也可以很好的支持統一管理(這個是很多產品不能支持的);

2.故障窗口小,可靠性高,發生硬盤或者節點故障後,恢復時間僅爲傳統架構的 30% ;

3.運維更簡單,只需運維標準x86 服務器+萬兆交換機+SmartX超融合軟件,運維壓力減少了很多,IT人員可以把精力放在新技術的評估和使用上;

4.相比傳統架構,採購成本降低30%,有效降低採購成本。

5.超融合存儲使用率必須低於100%-1/N*100% (N是節點數),使用率超過這個閾值,當節點宕機並不可修復的時候,會出現數據丟失。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章