zabbix告警
- 告警中,當提示機房間鏈路丟包,延遲增大、down機等問題登陸相應設備進行雙向MTR。
- 把得到的雙向MTR截圖直接發給涉及的機房故障羣(組),@相關技術可以提高迴應速度。
- MTR上會顯示丟包、延遲增大、不通的節點ip,查詢該ip的歸屬,如果雙向MTR內事故ip都屬於同一地市,那麼要着重跟進該機房。
- 當查詢出故障歸屬地市後,羣內無反應,及時撥打該機房24小時值班人員電話。並告知其情況,表明在該ip節點有故障。
故障點不在骨幹鏈路上
- 當服務器mtr對端時從第一跳開始就丟包(第一跳爲交換機),那麼服務器ping交換機ip查看是否確實丟包。服務器默認網關的ip爲交換機ip地址。
- 如果ping交換機都丟包,要及時打電話給網絡組成員,可能是光纖模塊引起的故障。
- 如果MTR第二條丟包嚴重,初步判斷爲機房設備問題(包括代理商),可直接向機房人員說明。
保證業務不受影響
- 當聯繫機房後,被告知故障無法及時恢復,應及時切走業務流量。
- 遇到無法及時處理的情況,聯繫網絡組。
- 當故障較多時無法一人處理,聯繫網絡組處理網絡故障。
故障恢復
- 如果故障具有持續性、間接性、物理因素引發的故障,不要恢復使用。
- 如果故障已經確保恢復,MTR、ping、wget均爲正常數值可切迴流量恢復使用。必要時可通過調整輪詢比例方式調整切量大小。
日誌故障記錄
- 根據zabbix告警記錄故障發生時間,根據測試故障結果的時間爲故障恢復時間。
- 如果多機房到同一個機房產生故障,大多數爲後者故障引起的,所以只記錄該機房故障即可。
- 記錄時寫明值班人員名字,發送郵箱。