AIOps 讓「事件管理」變得更加智能

AIOps 日益增長的趨勢,代表着未來市場積極的發展信號。最終,AIOps 將有能力幫助 IT 團隊完成各類最重要任務與最緊迫的事務,例如與業務效能密切相關的應用程序與數字服務可靠性、穩定性以及正常運行時間。

日益分散、異構且高度動態化的現代 IT 環境不僅沒有降低監控與管理的難度,反而隨着雲計算、容器與微服務技術的普及給各類組織帶來更嚴苛的運營挑戰。面對這一現實難題,IT 領導者正轉向 AIOps,將人工智能應用於 IT 運營,希望藉此破解 IT 複雜度提升與傳統監控工具不足的窘境。人工智能技術和 IT 運營支撐 Ops 之間的故事愈演愈烈,今天我們就來聊一聊,AIOps 到底能爲事件管理帶來什麼質的飛躍

規模龐大的系統

現在企業 IT 規模的軟硬件都在以數十倍/上百倍的速度遞增。如何管理 IT 可用性和高效性,成爲 IT 運營 DevOps 團隊重要職責。規模化帶來兩個顯著特點:1、更多的變更;2、更大的規模。企業的 IT 要想跑的更快,就必須將工作給分解的更加細緻,讓團隊能夠以獨立小分隊作戰。所以敏捷 Agile、DevOps、雲和微服務大行其道。

爲了保障高可用和高性能,企業基本上會用多個不同的監控工具,例如 Zabbix、Nagios、Open-Falcon、Solarwinds、Prometheus、ELK 等以及雲平臺自帶的監控工具,實現網絡和基礎設施、應用和中間件等服務。這些系統每天會產生數以萬計的事件或告警,這些事件都需要去分析、優先級甄別、並執行預案操作。隨着時間的推移,可能是數十萬、百萬事件需要去關注並解決。

有限的人力

有研究表明,人類大腦在短時間內(10-15秒)能同時處理7-9件事情。可對於習慣多線程工作的程序猿們來說,能夠同時跟進並處理2-3個事情就已經很辛苦了。所以,可以說工程師們的生產效率其實是可期的。相信如果採用敏捷模式的工作模式,最後統計人均工作量的時候,基本上一個團隊/每個人的輸出是一定量的。

事件管理是 IT 運營支撐過程中最爲高頻的事情,大多企業都有服務檯或者是一線支持團隊去及時分析、甄別重要事件。他們最首要的任務就是第一時間處理告警事件,如果處理不了,一般會協同他人,或者派發工單。但這有一個前提,就是團隊中需要有一個集中的事件中心或者告警管理平臺。通過接口、郵箱等方式收集各類監控事件過來。

告警集中化便於集中處理事件的同時,也帶來了一個重要的問題:告警疲勞(太多事件無感)和告警風暴(不知道什麼是重要的),而由之帶來的重要就是重要的告警事件被淹沒在汪洋大海里面, 一線團隊想要識別重要問題的難度尤如大海撈針。所以大多人會做一個事情:禁用告警。只將需要處理的事件發送至告警平臺,這樣人爲控制的方式,能夠有效甄別;但隨之而來的就是會有可能忽略大量的預警信息,不能及時在故障前發現問題,最終會造成對業務服務和終端用戶的影響。

在進入 AI 模式前,常見的操作就是事件的去重、關聯、合併,儘可能識別根源,爲此有些團隊花巨大精力構建 CMDB、並強化拓撲關聯等等,以及建立合併策略規則,目的只有一個,就是儘快甄別重要問題,以及識別根源,是否影響業務影響。然而事實證,大量的人爲干預和規則設定,大量的前置規則,都需要投入,而實際產出可能各異,最終效果不見的理想。特別是在規模化(雲化、分佈式和動態微服務)以後,維持準確的 CMDB 和拓撲關聯更加困難。

融入 AI 的事件管理

那麼如果在日常的事件管理中,如果與人工智能結合後,會有什麼不同。

在談 AIOps 前,我們先了解下什麼是 AI。大數據發展、高性能硬件、更先進的算法三駕馬車推進下,人工智能迎來第三輪發展浪潮。利用人工智能高效實現海量數據的分析和挖掘;處理數百萬事件乃至千萬,基本都是秒級甚至毫秒級。通過監督學習(人干預)和非監督學習(不干預),非常適合去處理大數據事情,這一點往往是人力達不到的。

Gartner 在2016年預測2019年,有25%的全球企業將會使用 AIOps 技術或平臺去實現IT運營支撐,現在已經2018年,有理由相信下半年到明年 AIOps 的爆發。

從 Gartner 定義範疇來說,AIOps 是包括監控 Monitor、服務管理 Service Desk、自動化操作Automation,基於大數據和機器學習技術的持續優化過程。核心思路是通過海量數據的異常檢測和多維度關聯飛、增強或取代 ITOM 領域的三個重要能力:監控、服務管理和自動化,進一步幫助IT運維人員準確甄別系統異常、快速定位故障根因、並對潛在系統運行風險進行預警、實現IT和業務的持續洞察和改進。

今天,我們就討論一下我們睿象雲的智能告警平臺 Cloud Alert 事件處理平臺。我們那的智能告警平臺更多聚焦的是監控產生事件到人員處理響應這個過程。

智能告警平臺經過人工智能技術的加持,將數以萬計的事件,經過漏斗式過濾,剩下的都是金子,縮減爲數十個重要事情(不是單粒度事件),這樣一線就可以保持更高的專注力和較高的工作效率。與傳統人工模式相比,可以相對輕鬆的快速(秒級)處理事件,實現去重、關聯和甄別重要事件,並創建工單/通知提醒,實現知識重用。工程師通過人工智能技術輔助,可以更快更高效的處理重要事件,減少故障修復時間和業務中斷時間,從而提升 IT 系統的可靠性和高性能。所以選擇一款具備 AIOps 屬性的事件集中管理平臺對於一線的運維人員來說,無疑是借到了東風。

睿象雲智能告警平臺已經實現:

  1. 自動減少告警數量和噪音,去蕪存菁;
  2. 智能的關聯/聚類能夠快速的識別問題,分門別類;
  3. 快速識別問題根源;
  4. 協作自動化,實現團隊溝通和協作;
  5. 知識積累和自動複用,決策支持,越用越智能。

睿象雲智能告警平臺,快速接入各類事件,通過人工智能算法自動發現、診斷、修復IT系統運行事故,並能幫助企業形成最佳事件管理流程,讓業務運行更加安全可靠。真正實現了智能化的告警閉環管理。

一個歷史案例場景:

“某商城,網絡交換機的端口故障,引發了一系列應用主機故障閃斷(如 Zabbix Agent Ping),以及相關的商城和門戶業務系統不穩定。”

Cloud Alert 的 AIOps 方案實現的效果:

  1. 將短時間數百/數千事件,縮減至數類問題:網絡交換機、主機閃斷、應用商城不穩定和門戶不穩定;
  2. 其中網絡交換機端口故障和應用主機故障,需要重點關注,前者的根源概率爲80%;
  3. 上個月該交換機曾經出現過類似問題,解決方案已經留有解決方案,僅僅需要限流乾預;
  4. 通過智能告警平臺自動通知了相關基礎設施團隊、商城和門戶支持團隊。而各方後臺人員收到的通知已經直接指出系統的故障問題,而不是某個業務系統100個進程閃斷的逐條詳細。

相比傳統的人工方式,事無鉅細的做法,人工智能的優勢在於能夠從大量的事件中提取關鍵重要信息,並甄別、識別優先級類型,並自動的實現人員協作通知,複用知識,實現決策支持,從而提升工作效率。

睿象雲歡迎您隨時聯繫我們,即刻開啓貴公司的智能運維之旅。點擊進入 AIOps 官網瞭解更多信息。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章