超融合在保險行業生產環境的應用探索與實踐

摘要:
泰康自 2017 年跟進超融合技術,在其穩定性和可靠性上積累了一些生產運維經驗和心得體會。本文通過對超融合技術的調研分析和應用實踐梳理, 希望 爲保險行業對超融合選型和場景應用提供一些觀點和思考。

一、引入超融合技術背景及原因分析

泰康作爲業內大型保險集團公司和金融科技領先者,在多年前即開始了新一代 IT 基礎架構的評估和探索。其原因一方面來自於集團業務數字化、互聯網化轉型對 IT 基礎架構的敏捷性、易維護性和總擁有成本提出了更高的要求,例如快速增長的互聯網資源池,以及大量的開發測試需求;另一方面,傳統的 SAN 存儲架構也在這樣的需求壓力下暴露出諸多弊端:

1 )資源交付效率低,週期長。不能滿足業務快速敏捷交付的要求;
2 )不能通過橫向擴展來增加性能;
3 )各品牌設備差異較大,軟硬件緊耦合,管理接口不統一,增加運維難度;
4 )災備場景下,存儲異構難度較大;
5 ) TCO 整體成本較高。

針對公司的需求和新型 IT 技術發展, IT 部門一直在不斷探索將小型機、傳統存儲等基於專用硬件、開放性敏捷性比較差的傳統架構向基於 x86 服務器結合虛擬化和分佈式存儲,甚至容器和雲管的新一代軟件定義數據中心演進。 2014 年將 Hadoop 平臺運行在本地虛擬化平臺上, 5 年來該平臺運行穩定,並未出現性能相關問題。 2017 年瞭解到超融合靈活擴展、開箱即用的特點,其優勢有效規避了傳統 SAN 存儲的某些弊端,但是超融合不穩定和不可靠的聲音也不絕於耳。但是通過 分析保險應用特點,傳統大型應用經歷了 U2L 的歷程,以及微服務化和容器化,單機的高負載已逐步被弱化,同時搭配其他保障業務連續性的軟件(如 Zerto 、 V eeam ),核心生產跑到超融合產品上,已不是多麼可怕的一件事情。

傳統的保險公司也都在業務形態上悄然發生着轉型,泰康已不只是“保險 + 服務 ”的商業模式,正在用“保險 + 科技 ”打造科技型、服務型的新型互聯網保險公司,利用科技驅動業務。互聯網保險應用已成爲新一代年輕人的首選。互聯網應用靈活多變的特性,以及保險行業常有的業務節點,如開門紅等,對開發和上線的速度,以及資源交付的時效,如何用最短的時間搭建一套可靠穩健的基礎平臺成爲了關鍵,以及對投入產出比的分析,所以在認真評估後,泰康在 2018 年就開始在互聯網核心生產環境中引入超融合架構,目前系統已經經過了兩年的穩定運行,其架構優勢也在內部得到發揮。

二、超融合在保險生產環境可行性調研和方案選擇

因爲超融合本身沒有延續傳統的計算、存儲、網絡,所以很多 IT 人對這種架構有諸多疑問和顧慮,市場上概念也比較混亂,這裏介紹一些我們調研和評估的心得。

1 、分佈式存儲是超融合架構最核心的價值的體現,也是變化最大的部分,因此也是評估該架構性能和可靠性的關鍵。

超融合架構的名字可能掩飾了存儲的重要性,導致一些用戶不知道評估的重點,但通過對比傳統架構我們能看出來,如果虛擬化繼續使用 VMware ,真正的變化就是用 x86 服務器加分佈式存儲軟件代替了傳統的存儲,而做 IT 的人都知道存儲對於整個 IT 基礎架構可靠性和性能的重要性,所以軟件定義存儲作爲超融合架構的最核心的價值體現和關鍵指標,也應該作爲架構評估和產品評估的重點。另外,因爲虛擬化本身已經在企業內非常普遍和成熟,所以超融合架構很多優勢也都是由分佈式存儲帶來的。

關於底層存儲,一些關鍵指標需要重點關注,
1 ) 路徑優化,支持數據訪問路徑優化
2 ) 數據分層,軟件自動將經常訪問的熱點數據放在 SSD 磁盤上,而將不常用的數據放在 HDD 磁盤上
3 ) 數據快照,存儲底層具有數據快照技術(非虛擬化軟件的快照),可實現對數據進行快照保護及快速恢復
4 )數據保護,具有完善的硬盤和節點數據保護機制,當發生硬盤乃至節點失效時不會影響數據正常訪問。

當然,作爲超融合架構,畢竟也不同於服務器和分佈式存儲分離部署模式,如何將虛擬化和分佈式存儲統一部署,並且保持高可用,甚至更優的性能和資源消耗,也應該作爲這一類架構評估的重點。

2 、超融合 的 架構和特性都已滿足生產環境的需求,但 也 要關注具體廠商的實現和成熟度。

業內對於超融合可靠性以及超融合的應用場景也有很多聲音,其實從我們內部調研和使用的情況來看這些認知都非常過時了。上一個章節也分析了,超融合的穩定性有很大一部分都來自於分佈式存儲,可以看一下目前主流超融合產品在分佈式存儲架構和特性上的可靠性的保障。

1 )最核心的副本技術已經比較成熟,三副本的情況下允許兩個節點同時全部壞掉,這個冗餘度可以滿足生產環境需求,而且比雙控制器的冗餘度更高;
2 )分佈式存儲的自動數據恢復比傳統存儲方式更高效智能,能減少故障出現後的運維壓力;
3 )磁盤數據校驗,拓撲感知,甚至雙活等企業級存儲功能一線超融合廠商都已經具備,但目前採用超融合內置雙活的案例還比較少,相對而言,配合第三方成熟的虛擬化災備產品例如 Veeam 、 Zerto 等方案的案例普及度更高;
4 )作爲超融合的架構,除了存儲本身的高可用性,還有存儲和虛擬化整合的部分的高可用性也需要關注,目前採用的分佈式存儲控制虛擬機的方式都有對應的高可用機制,保證單個存儲控制虛擬機出現問題的情況下,本機上的虛擬機的 IO 訪問路徑可以切換到其他節點。

在虛擬機化軟件部分,大部分超融合廠商都在支持 VMware 虛擬化的同時提供了內置的基於 KVM 的免費虛擬化平臺,目前在主要功能上都能滿足需求,不過 VMware 的內存超分能力目前確實比 KVM 的內存管理技術要好很多,內置的虛擬化軟件雖然大部分提供了 VMware 向其平臺一鍵遷移的功能,但是用戶自身的習慣,以及對現有平臺的綜合考慮,大多數用戶還是用腳投票給了 VMware 。但考慮未來的成本降低和新技術的引入,以及國產化的需求,內置的虛擬化也可以重點評估和儲備。

3、軟硬件方案的選擇和實施等也有關乎可靠性和性能

雖然超融合對於通用 x86 服務器都可以滿足,甚至可以利舊已有服務器,但是要想有一個穩定的環境,首先,底層硬件的最好要統一一致,其次,超融合架構還有對 SSD 、萬兆等要求,並不是隨便幾臺 x86 服務器 就能搭建一個超融合集羣,在方案選擇和配置 時 也需要額外關注。

三、超融合在生產環境中的應用實踐

經過評估,我 們 幾年前已開始逐步引入超融合產品,並將其首先應用於互聯網應用的核心生產環境中,並且同時也在開發測試環境、桌面虛擬化環境中進行部署。以下是一些我們應用的心得體會:

1 )目前一線專業的超融合產品的穩定性完全可以滿足保險業務生產環境需求,例如在互聯網應用中已部署了 16 節點國產超融合產品,穩定運行兩年,實現資源快速搭建和交付,滿足業務系統對資源池的需求;其中,有 8 個節點我們還使用了其內置的基於 KVM 的虛擬化,目前也運行情況良好。
2 )另外我們在開發測試也應用了大量的超融合節點。有些客戶認爲開發測試平臺對性能和可靠性要求不高,可以用來嘗試超融合架構,其實我們內部的開發測試環境運行壓力非常大,每個物理節點有幾十個虛擬機運行,負載遠高於生產環境,而且開發測試環境經常會涉及配置調整、變更,相對生產環境來說更爲複雜。作爲一名運維人員,誰敢說開發測試環境不是生產環境,測試環境發生任何故障,同樣會受到領導的“親切關懷”和靈魂拷問“影響範圍是什麼”“什麼時間恢復”,運維壓力同樣亞歷山大。
3 )超融合整體的優勢在各個環境中都體現的比較充分,包括:
A. 降低 IT 架構整體複雜度;
B. 架構橫向的彈性擴展伸縮能力和快速交付;
C. 各超融合廠家都支持通用標準 x 86 服務器硬件,綜合成本比傳統架構要低;
D. 運維時面向一家超融合服務商,不用多家扯皮,運維簡單;
E. 軟件升級管理簡單。

最後,對於廠商的選擇方面, Nutanix 作爲標杆產品,穩定性和可靠性等方面經常讓大家忘記它的存在,當然,價格也比較奢侈。國內超融合廠商近年也如雨後春筍般湧現出來,整體性價比較高,本地服務也很及時,例如 SmartX 作爲國產頭部超融合產品供應商商也是業內使用較廣的廠商之一。

四、超融合的未來和其他方面的思考

超融合和私有云之間的關係:超融合解決的是基礎架構資源層面的整合問題,雲計算是解決用戶交付的問題,目前各大公司都在自研雲管平臺,雲管平臺搭配超融合,超融合架構爲雲計算提供基礎設施服務在我們看來是未來企業搭建私有云的不錯選擇。

從職業發展角度,傳統的存儲管理員也應該考慮往雲計算方向發展了,否則已經跟不上時代的發展潮流,就像當年的去 IOE 浪潮中,小機管理員也在探索新的技術方向, x 86 / 虛擬化 / 雲計算等都是不錯的方向, DBA 也在學習 MySQL 等開源數據庫。

如今產品衆多,每家的技術實現細節不一樣,任何產品都有其侷限性,如何把資源用到正確的場景,把控風險,是考驗運維人員的經驗和能力。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章