運維工程師如何做好告警分析與彙報?

智能告警平臺(Cloud Alert) CA,能快速接入各類告警信息,通過自動去重、規則壓縮、算法降噪,實現告警降噪,幫助IT運維團隊減少告警,避免告警風暴;同時通過分派、排班、通知等功能,快速實現告警流程化管理,幫助運維團隊更快響應告警,恢復告警,提升告警管理能力。
CA提供多維度報表幫助您快速分析告警、成員工作效率,概覽系統運行狀況。支持自定義時間段,回溯分析歷史系統狀況。
在這裏插入圖片描述
在這裏插入圖片描述
關鍵指標分析
事件量: 原始告警量
· 主告警量: 自動去重、規則壓縮後告警量
· 壓縮比: 壓縮比計算公式:(1 - 主告警量/事件量) * 100%
· MTTA: 告警平均響應or認領時長
· MTTR: 告警平均恢復or關閉時長
事件壓縮分析
· 按天統計事件量、所有告警、主告警量隨時間變化趨勢
· 點擊右上角 more 按鈕,可下鑽查看更多分析,若回溯分析時間跨度過長,還可以按月維度統計事件量、主告警量、所有告警量
在這裏插入圖片描述
應用分析&關閉分析
· 應用分析: 統計查詢時間週期內,不同應用的告警數量;
· 關閉分析: 統計通過外部系統關閉、超時自動關閉、手動關閉三種方式關閉對應不同應用的關閉告警數量;
· 應用分析中點擊右上角 more 按鈕,可下鑽選擇不同應用按天查看告警
在這裏插入圖片描述
告警級別&狀態分析
· 統計查詢時間週期內,不同級別(提醒、警告、嚴重)佔比,及告警當前處理狀態(待認領、處理中、已關閉)。
· 支持聯動查詢:所有嚴重級別告警,當前處理狀態分別是什麼。
· 點擊右上角 more 按鈕,可下鑽查看所有告警詳單。
在這裏插入圖片描述
成員分析
· 統計查詢時間週期內,團隊所有成員的告警處理效率:被分派告警量、認領告警量、關閉告警量、MTTA、MTTR。
· 支持下鑽查看每個成員被分派的告警詳單。

告警智能分類分析
· CA內置分類算法,基於告警全文本分析,自動標註告警分類。
· 提供本週期與上週期對比分析,快速定位不同分類告警數量差異及變化情況。
· 分類類型內置,無需自定義,目前支持12種分類:網絡狀態、硬件處理器、硬件內存、操作系統、磁盤、WEB應用、信號檢測、數據庫、基礎組件、應用監控、容器、其他等。分類算法還在持續迭代優化中,敬情期待。

Top告警內容分析
· 統計查詢時間週期內,不同告警內容的發生頻率並進行排序,快速定位頻繁發生的告警。
· 對於頻繁發生的告警,需分析是否需要統一徹底解決,或者是否需要調整監控平臺的告警閾值等。
· 對於不頻繁發生的告警,更需要額外警惕,往往不經常發生的告警,導致的問題更嚴重,定位根因更久,修復耗時更長。

新奇事件TOP10
· 今日新奇事件TOP10:相較於昨天,今日新發生的事件;
· 本週新奇事件TOP10:相較於上週,本週新發生的事件。

更多功能歡迎訪問睿象雲官網進行體驗~

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章