24小時值守F&Q


zabbix告警

  • 告警中,當提示機房間鏈路丟包,延遲增大、down機等問題登陸相應設備進行雙向MTR。
  • 把得到的雙向MTR截圖直接發給涉及的機房故障羣(組),@相關技術可以提高迴應速度。
  • MTR上會顯示丟包、延遲增大、不通的節點ip,查詢該ip的歸屬,如果雙向MTR內事故ip都屬於同一地市,那麼要着重跟進該機房。
  • 當查詢出故障歸屬地市後,羣內無反應,及時撥打該機房24小時值班人員電話。並告知其情況,表明在該ip節點有故障。

故障點不在骨幹鏈路上

  • 當服務器mtr對端時從第一跳開始就丟包(第一跳爲交換機),那麼服務器ping交換機ip查看是否確實丟包。服務器默認網關的ip爲交換機ip地址。
  • 如果ping交換機都丟包,要及時打電話給網絡組成員,可能是光纖模塊引起的故障。
  • 如果MTR第二條丟包嚴重,初步判斷爲機房設備問題(包括代理商),可直接向機房人員說明。

保證業務不受影響

  • 當聯繫機房後,被告知故障無法及時恢復,應及時切走業務流量。
  • 遇到無法及時處理的情況,聯繫網絡組。
  • 當故障較多時無法一人處理,聯繫網絡組處理網絡故障。

故障恢復

  • 如果故障具有持續性、間接性、物理因素引發的故障,不要恢復使用。
  • 如果故障已經確保恢復,MTR、ping、wget均爲正常數值可切迴流量恢復使用。必要時可通過調整輪詢比例方式調整切量大小。

日誌故障記錄

  • 根據zabbix告警記錄故障發生時間,根據測試故障結果的時間爲故障恢復時間。
  • 如果多機房到同一個機房產生故障,大多數爲後者故障引起的,所以只記錄該機房故障即可。
  • 記錄時寫明值班人員名字,發送郵箱。
發佈了22 篇原創文章 · 獲贊 8 · 訪問量 4萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章