關於銀行業智能化運維建設思考

關注嘉爲科技,獲取運維新知

一、現狀:銀行運維工具已實現技術條線全覆蓋,但基於運維管理的全流程自動化、智能化尚停留在研討階段

根據銀監會編制的《中國銀行業信息科技“十三五”發展規劃監管指導意見》,其中“第九章 第三節 提高運維自動化水平,打造智能化運維體系”中明確提出對運維自動化智能化的指導意見:

提高基礎資源和應用部署的自動化水平,實現快速交付、動態調整、彈性部署,降低人工操作風險,自動化部署比例不低於75%。

持續推進生產運維監控精細化、自動化、智能化建設,強化系統風險和故障的早預警、早定位和早處置。

實現應用層面交易全流程、全節點監控全覆蓋,結合應用系統交易特性及相關數據的分析對比,提升交易過程監控的智能化水平。強化容量管理,做好相關資源的動態規劃,預防非計劃性、突發性的容量瓶頸問題發生。

強化運維、開發、安全、風險管理的信息共享和一體化協作,提升多方聯動能力。加強運維大數據分析,利用運維大數據加強業務風險防控,探索利用運維大數據推動業務流程優化並支持業務創新。”

—— 摘錄自《中國銀行業信息科技“十三五”發展規劃監管指導意見》

——汪曾祺

在運維建設較前的銀行業及互聯網企業的建設經驗中,平臺化和智能化已成爲運維體系發展的大趨勢。以阿里經驗爲例,將運維發展分爲五個階段,分別爲L1-腳本運維、L2-工具化運維、L3-平臺化運維、L4-數據化運維、L5-智能運維。隨着運維管理手段的推陳出新,逐漸地提升“系統”在執行和決策環節中的比重,從而不斷降低人工參與度,如下圖:

關於銀行業智能化運維建設思考

參考網址https://yq.aliyun.com/articles/637988

在工具化運維階段,傳統運維建設模式基本以煙囪式爲主,每個煙囪只爲了解決單一的運維場景,如應用發佈、系統監控、數據提取等。

隨着新技術不斷在信息化建設中應用,帶來了操作單元海量化、版本更新頻繁化、監控粒度細緻化等問題,煙囪式的建設模式已經難以滿足運維發展的要求。

隨之而來,各個企業開始向着平臺化、一體化的方向發展。如騰訊公司的思路是採用SOA和PaaS的技術架構模式,在PaaS內將各能力封裝成各類原子平臺並自動化,如配置平臺(CMDB)、作業平臺、容器平臺、數據平臺(AI)等,而後通過任務引擎將分散在個原子平臺的功能,根據不同的場景重新連接成“串”或者“樹狀分支結構”實現全自動化、智能化。

關於銀行業智能化運維建設思考

目前大多數銀行的數據中心經過多年建設,尚處於從“工具化”向“平臺化”過渡階段,已經建立較爲全面的IT架構基礎平臺,監控與流程均有一定的建設。如統一配置管理(HP UCMDB、Remady CMDB)、監控系統(Zabbix、HP OVO)、流程管理(BMC Remedy)、自動化控制(HP SA、BMC Bladelogic)……等。

而IT運維管理建設多采用產品採購模式,但隨着積累的運維工具數量持續累加,繁雜的煙囪式應用使運維效率難以繼續提升,其主要體現在以下幾個方面:

關於銀行業智能化運維建設思考

系統故障定位時間長,無法達到精準化報警,難以快速解決問題。

難以評估系統當前和未來對資源的需求,以及資源分配的合理性。

運維數據普遍存在分散、標準規範不統一、數據使用不規範等問題。

二、IT運維自動化、智能化的轉型升級之路

隨着雲計算、微服務在企業信息化建設中的大量應用,IT運維崗位正在從資源管理嚮應用運維、從運維保障向業務運營、從低價值勞動向高附加值服務轉型發展。

而在這個過程中,運維平臺化和運維數據化的建設至關重要。

一定要充分利用數據,這裏的數據指的是運維數據,如性能監控數據、運行日誌數據、變更操作記錄等等,儘可能的接入更多的種類的數據。

利用這些數據,通過大數據和機器學習的技術,實現業務系統精準建設、系統資源精準配置、風險隱患精準控制,最終促進降本增效的目標。

關於銀行業智能化運維建設思考

由於目前銀行中運維管理建設還採用傳統分散建設,各種煙囪式的系統之間數據存在數據重複、數據割裂、數據不準等問題,爲運維數據化建設帶來了極大的困難,具體體現在如下幾個方面:

系統間信息不能共享,難以形成整體,缺乏效率難題持續提升。

由於信息和功能不能共享,須在多系統內重複建設基礎功能和數據。

場景覆蓋面不足,現有功能點無法跨多個系統進行場景式的編排。

爲了解決分散的煙囪模式給運維管理建設過程中的問題,儘快實現平臺化和數據化的目標,急需通過頂層設計,實現有效整合,建立一體化的綜合管理平臺,實現數據集中存儲,統一分析,集中展示,高效處置。

參考騰訊、阿里頂級互聯網公司的建設經驗,建設“平臺層”來整合各煙囪式運維應用的功能和數據,從而構建一體化運維綜合管理平臺。基於一體化的運維平臺建設遵循原則如下:

1) 一體化平臺:採用“平臺+應用”的建設模式。

2) 功能全覆蓋:構建監、管、控於一體的運維管理。

3) 自主可控:通過平臺的模式將運維開發的能力交付給用戶。

4) 先進技術架構:構建一套高可用、高性能安全運行系統。

基於上述原則,規劃一體化平臺如下圖所示:

關於銀行業智能化運維建設思考

① 服務層面向用戶、管理者、維護人員輸出友好、便捷、高效的IT服務。

面向用戶提供更多的自助式服務。

面向管理者提供靈活的可視化服務。

面向維護人員提供豐富的自動化服務。

② 平臺層是關鍵,通過平臺層將新舊能力層系統整合在一起,產生聯動效益。

構建統一的API服務網關和調度編排引擎,將能力層的各種能力對接到平臺層。

構建統一門戶、4A集成、工具市場等易用模塊,增強運維管理一體化能力。

構建工具開發框架和運行託管環境,簡化工具建設成本。

③ 能力層包括過往已有的運維管理系統,以及未來繼續擴展的管理系統。

隨着技術的發展,需要補充運維大數據平臺、人工智能(AI)平臺、容器管理等。

已建成的功能模塊需要持續優化和更新,適應新業務、新技術、新管理的要求。

④ 採控層是在最底層規劃建設的統一採控通道,從底層保證數據一致性和準確性。

運維管理建設是一個長期的過程,不能追求一蹴而就,需要分階段穩步實現。參考運維技術的發展過程以及先進單位或互聯網公司,演進路徑大致如下:

平臺化:利用PaaS技術實現平臺層,建設一體化平臺的基礎框架。並在平臺層中將現已有的運維管理系統集成起來,從而實現一體化平臺的基礎框架。初期在平臺層之上開發3~5個運維管理工具,作爲整合型運維管理工具的試點場景,並持續不斷的組裝工具以滿足運維管理的方方面面。

數據化:在能力層內建設運維大數據能力,將散落在各運維管理系統的數據歸集起來,形成運維數據倉庫。繼而在實際的運維管理工作中,探索數據挖掘場景,利用大數據計算和分析能力輔助管理決策,實現初階AIOPS場景。

智能化:正式將人工智能(AI)應用於運維管理中的工作場景中,利用上一階段積累的數據樣本和決策模型,通過機器學習手段解決提升“AI”在管理決策中的佔比,實現根因定位、容量預測等高階AIOPS場景。

關於銀行業智能化運維建設思考

然而運維大數據技術經過近年的快速發展,相關技術的應用已經基本成熟,根據銀行業的現實狀況,可以在首期項目中就實現“運維大數據的歸集”和“大數據應用場景的探索”,從而形成“兩步走”的建設思路:
關於銀行業智能化運維建設思考

“如何利用智能化手段提升運維管理”的研究浪潮已經掀起,部分互聯網和銀行已經進行了部分嘗試並取得了一些效果。順應時代發展趨勢,展開智能化探索,才能主動贏得運維管理的未來。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章