Prometheus 告警收斂
告警面臨最大問題,是警報太多,相當於狼來了的形式。收件人很容易麻木,不再繼續理會。關鍵的告警常常被淹沒。在一問題中,alertmanger在一定程度上得到很好解決。
Prometheus成功的把一條告警發給了Altermanager,而Altermanager並不是簡簡單單的直接發送出去,這樣就會導致告警信息過多,重要告警被淹沒。所以需要對告警做合理的收斂。
告警收斂手段:
· 分組(group):將類似性質的警報分類爲單個通知
o 1、減少報警消息的熟練
o 2、同類告警聚合幫助運維排查問題
· 抑制(Inhibition):當警報發出後,停止重複發送由此警報引發的其他警報
配置文件:vim alertmanager.yml # inhibit_rules標記:降低告警收斂,減少報警,發送關鍵報警 inhibit_rules: # source_match: 匹配當前告警發生後其他告警抑制掉 - source_match: # severity: 指定告警級別 severity: 'critical' # target_match:抑制告警 target_match: # severity: 指定抑制告警級別 severity: 'warning' # equal: 只有包含指定標籤纔可成立規則 equal: ['alertname', 'dev', 'instance']
o 1、消除榮譽報警
· 靜默(Silences):是一種簡單的特定時間靜音提醒的機制
o 1、解決預期告警