告警壓縮與降噪

爲何要壓縮告警?

運維監控工具/平臺,一般是通過配置固定閾值,達到閾值後自動觸發/生成告警。如網絡中斷、閃斷;系統升級更新;設備多監控內容多等情況下,更會產生海量告警。以下爲告警管理常見問題:
故障期間,告警風暴,手機/郵箱會被海量告警淹沒;
運維人員很難從海量告警從篩選出重要告警,容易忽略重要告警;
固定閾值控制,頻繁誤報、漏報告警;

如何實現告警壓縮與降噪?

睿象雲智能告警平臺 Cloud Alert(後文爲:CA)適應不同行業、不同規模、不同運維水平公司的各種告警需求,平臺支持多維度告警壓縮合並與降噪,幫助您在不遺漏重要告警前提下,快速減少告警。
CA實現告警降噪根據降噪程度不同,分爲事前和事後共三種方式:
事前:也就是影響告警通知的方式;
事後:不影響告警通知的方式,可以用作事後分析判斷。
1.自動去重壓縮;(事前)
2.規則壓縮;(事前)
3.算法智能降噪(事後)

自動去重(事前)

全量告警推送到CA平臺後,CA平臺會自動基於時間序列,將相同的事件/告警壓縮。不同監控工具去重壓縮機制有細微差異:根據 eventId(事件ID)和告警對象,去除重複告警。

規則壓縮(事前)

自動去重後的告警,會按照壓縮規則,將相似、同源(同一設備不同類型的信息)告警再次進行壓縮。一共分爲兩種壓縮機制,分別是:
1.算法智能降噪
2.自定義壓縮規則降噪

算法智能降噪
主要原理是將指定時間內的告警,提取相應的關鍵詞放在一組模板中,通過我們的算法將告警進行比對,符合要求的告警會被壓縮、整合後在進行通知。

自定義壓縮規則降噪
用戶可根據自身需求來設置主機、服務、告警內容、告警對象的壓縮條件,設置完畢後告警會根據告警壓縮規則,來進行壓縮降噪。

智能算法降噪(事後)

這個事後的算法智能降噪,用於用戶的告警分析,使得用戶可以清晰的排查告警主要出現的問題在哪,是在通知後進行的,所以不影響告警通知,其中有兩種降噪方式,分別是:
1.高聚合智能算法降噪
2.仿閱讀智能算法降噪

高聚合智能算法降噪
主要原理是將告警的內容,進行文本以算法進行比較,將符合要求的告警文本進行告警聚類。

仿閱讀智能算法降噪
主要原理是將告警內容模板化,再將告警模板以一種特定的算法進行對比,將符合規定的告警進行合併。
仿閱讀智能算法比高聚合智能算法,降噪條件更嚴格,因此聚類後的結果一般多於後者。
一個高效的壓縮與降噪方式,能夠有效的避免告警風暴問題,並且能夠減少大部分的成本。更多高效功能,歡迎訪問睿象雲智能告警平臺,進行產品使用。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章