華爲雲GES助力九洲平臺:探索確定性運維的新實踐

本文分享自華爲雲社區《基於華爲雲GES的九洲平臺確定性運維實踐》,作者:華爲雲GES團隊 華爲雲SRE九洲團隊。

1 制約運維自動化的三大挑戰

傳統的雲資源運維存在諸多問題:對風險的管控仍然依賴人工而不是工具系統,風火水電基礎設施在遇到問題時因無法定位影響只能全局管控,使影響面無故擴大。由於缺乏雲資源的拓撲信息,部分資源依賴獲取不到會導致許多問題的擱置……提升雲資源的自動化運維能力,面臨諸多挑戰:

缺乏拓撲信息,依賴分析難

不同的雲資源(如租戶信息、雲服務信息、機櫃機房信息)來源於不同的系統中,從軟件層面的雲服務,到硬件層面的機房機櫃等,都可能出現各種各樣的問題,並且不同的雲服務之間存在着一些依賴關係,一個雲服務出問題可能影響其他雲服務。

自動化程度低,問題定位依賴人工

即使擁有這些依賴關係並存儲在配置管理數據庫中,傳統運維手段也只能定位問題節點,對於問題的爆炸半徑(如問題節點依賴的機櫃機房信息、或依賴的其他雲服務)往往要依賴手工定位。

運維訴求雜,查詢類型多

此外運維例行維護、故障定位需要進行類型繁多的查詢,既需要有實時性要求的單點深度鏈路查詢支撐運維,也需要全局類鏈路統計等偏離線任務的查詢支撐下游任務。

2 華爲雲圖引擎GES助力CloudMap高效檢索圖數據

從數據入庫到計算查詢,華爲雲圖引擎GES爲九洲平臺CloudMap的存儲、查詢和分析提供了一站式解決方案。

2.1 高效數據導入,保證數據時效

在複雜、龐大數據量的背景下很難使用傳統的結構化數據庫進行數據建模,圖引擎幫助快速構建點到點、點到邊之間的數據建模;

從基礎設施到雲服務,使用圖引擎構建全棧元數據,創建了過億的點邊關係,同時這些點、邊支持增加屬性機制,讓每個點、邊都能存儲對應的屬性;

數億帶索引的屬性數據小時級數據導入,保證了數據的時效性。

圖 1 簡化後的元數據截選

2.2 全程一套查詢API,降低開發成本

華爲雲圖引擎GES提供了豐富的API接口查詢能力。圖引擎團隊支撐CloudMap團隊瞭解和學習相關查詢接口和Cypher語法,實現接口化的查詢邏輯。CloudMap的查詢請求通過GES的Cypher、PipelineQuery、PathQuery等接口完成,這些請求響應和返回格式統一,便於處理,簡化了CloudMap的處理邏輯,降低了運維訴求雜,查詢類型多帶來的業務開發成本。查詢請求的高效響應,讓長鏈路的空間關係數據得以快速查詢並消費。

2.3 同時支持離線/在線任務,“一份數據做兩件事情”

秒級響應能力:在圖引擎的強大算力支持下,九洲平臺CloudMap實現了多點、多跳查詢的能力,在複雜的空間關係中快速、準確的找到需要的數據及關係。其中利用業界領先的技術,圖引擎將大量6-8跳查詢的響應控制在秒級,使得CloudMap進行實時故障影響面分析、設備依賴關係查詢成爲可能;

離線計算能力:在對於需要龐大計算量、大量數據的分析型任務中,圖引擎提供了異步任務能力,通過提前執行離線查詢/算法任務並緩存結果,保證了結果獲取的效率,支撐了CloudMap向下遊應用提供數據;、

強大索引機制:圖引擎支持像關係型數據庫一樣的索引構建能力,可以基於label、屬性等進行索引創建,實現全圖屬性過濾任務的快速響應;

穩定可靠的查詢能力:由於數據量大、查詢鏈路長的原因,在查詢過程中往往會使用大量內存,圖引擎通過內存管理技術控制總內存使用量,讓查詢穩定可靠。

圖 2 CloudMap空間數據3D拓撲示例

3 九洲平臺CloudMap解決方案

圖 3 CloudMap數據概覽

華爲雲圖引擎GES團隊支持九洲平臺CloudMap完成了億級空間數據構建,數十個查詢API落地九洲平臺支撐每天的業務查詢。九洲平臺通過租戶資源拓撲構建、網絡流量路徑分析、服務動態依賴發現打造全鏈路可視能力,構築基於站點視角的數字化平臺,實現分鐘級問題定界。

圖 4 CloudMap雲上資源拓撲示意圖

3.1 構建租戶資源拓撲,使得依賴分析成爲可能

租戶資源拓撲是將實體抽象成與其大小、形狀無關的“點”,而把連接實體的線路抽象成“線”。CloudMap通過整合各類系統中的數據信息,將華爲雲的租戶與其相關租賃的物理機、虛擬機進行關係的構建並存儲到華爲雲圖引擎GES中,構建租戶資源拓撲,使得依賴分析成爲可能。配合GES提供的查詢語句和API,在租戶出現問題時第一時間能夠通過“線”溯源回對應的租賃機器,並快速定位和解決其中的問題。

圖 5 CloudMap租戶資源拓撲示意圖

3.2 繪製流量路徑,截斷問題蔓延

華爲雲作爲國內TOP雲服務廠商,每日網絡流量數據是比較龐大的,對於網絡流量路徑的管理和可視就如地圖之於道路交通一樣重要。而在運維場景下,掌握了網絡流量路徑可以進一步的補充由基礎設施、基礎服務到高階服務之間的鏈路關係。CloudMap通過將請求流量進行監控,繪製出一個整體、清晰的物理和虛擬網絡路徑,可以準確截斷問題的蔓延,提高自動化運維水平。

圖 6 CloudMap高階資源關聯的物理網絡拓撲示意圖

3.3 服務依賴動態發現,爆炸半徑自動呈現

服務依賴發現是發現分佈式軟件系統中各組件依賴關係的過程,隨着華爲雲的規模擴張,服務往往會被拆分爲多個子服務。分佈式軟件系統通過不同子服務之間的組合,提供了穩定多樣化的服務。與此同時,由於這些錯綜複雜的依賴關係,也伴隨着很多連鎖反應。其中最經典的案例就是由於單個服務的故障導致其在分佈式軟件系統中快速傳播,導致大量的服務失效。在華爲雲的日常運維中,掌握各個服務的動態依賴是讓雲穩定可靠不可或缺的一項技術,它關係到了能否快速的找到保障服務的各個關聯服務,避免其他服務引火燒身。使用GES的多跳查詢能力,CloudMap及時定位單服務問題的影響範圍,避免大量服務失效,解決爆炸半徑求解難的問題

圖 7 CloudMap雲服務資源拓撲示例

4 九洲平臺CloudMap的應用

作爲站點數字化平臺,九洲平臺CloudMap在圖引擎GES上搭建運維圖模型,建立站點空間數據關係。通過疊加空間數據和運維作業數據,從而打破數據孤島、消除數據斷裂點、沉澱專家經驗,形成運維知識圖譜,釋放數據價值,助力故障快速定位定界。

圖 8 九洲數據流

截止目前,CloudMap在GES上存儲的空間關係數據已覆蓋52+雲服務,在分佈式緩存服務DCS、雲數據庫服務RDS、文檔數據庫服務DDS和大數據服務MRS等高階服務故障快恢場景應用落地。除此之外,CloudMap還爲站點風控、變更風控、故障快恢、站點工作臺等多個運維場景提供了數據底座和計算能力,極大提升了現網運維效率。

GES在此過程中也爲CloudMap提供了數據底座,助力其挖掘關聯數據,釋放數據的潛在價值。目前,GES圖引擎已經在智能運維、數據血緣、製造業物料管理、金融反欺詐、社交推薦、企業關聯關係等多個業務場景支撐客戶達成客戶業務目標,未來GES會探索更多業務場景,幫助更多客戶和開發者使用圖,用好圖,並取得業務成功。

 

如需更多瞭解,請關注:

 

點擊關注,第一時間瞭解華爲雲新鮮技術~

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章