事故分析2

影響:
小迪 [email protected] 帳號 10.0.63.186 節點 主掛了 redis就掛了
9.29 8:40用戶感知到了

報警信息:

onealert 沒有報警

nq66 osd fd過高
gq1,gq3 osd報ERROR

8:02 onealert
新告警通知–8014480
警告: [QCOS][bq] target_job_down - Target job gateway_metrics is down
告警內容:(bq30)firing: bq30, resolved: ; [bq30]: Target job gateway_metrics is down: 192.168.192.30:2100 ;
發生時間:08:02:08

所屬應用:
查看詳情:http://t.cn/RGrYU0a
-------------OneAlert.com--------------
羣暱稱與OneAlert用戶名一致,告警提醒更及時哦~
#+關鍵字 或 中文問號+關鍵字 來調戲機器人吧!

可能原因:?
1、 機器故障 硬盤壞了等問題 。 Bq 30盤硬件壞了 。
2、 根目錄壞了 docker 的 opt根目錄
3、 nq66 docker不工作 fd暴漲 osd重啓後 fd還是暴漲

監控報警:
報警有了,處理 跟進不及時

跟進機制:
第一時間 遷移,
或者通知客戶 是不是比讓客戶過來問 要好。

原因:根目錄壞了 docker 的 opt根目錄
導致小迪問題
4、 宕機、磁盤壞了、扇區壞了 。如何跟進 排查?

redis 主 目錄 掛了,從 數據存在。遷移後 ,主可恢復。
6個節點 3個cluster 3個備份

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章