一次客戶防火牆配置導致業務故障分析

相關敏感信息去除

1.故障情況
在2019年7月11日接收到值班人員反饋,在23:45開始,三套網管終端顯示XXXXX、XXXXX、XXXXX所有網元脫管,在00:00恢復,持續15分鐘。同時相關技術人員也反饋在此時間段,三套網管的服務器也與各自網元中斷聯繫,也是持續15分鐘。本次故障從7月11日發現,到7月14日解決,一共持續了4天。
2.拓撲說明
一次客戶防火牆配置導致業務故障分析
防火牆採用採用透明模式部署在服務器與網管網絡之間,配置相應的安全策略。
整個網絡使用二層數據交換,不涉及路由轉發
3.採取措施
經過線路檢測,設備檢測,數據包抓包,防火牆日誌分析,設備日誌分析和主機日誌分析都未能定位故障原因。後經過防火牆售後工程師協助定位,定位出故障原因,並同時更改防火牆配置,解決故障。
4.故障解決
4.1.XX網管網絡抓包分析
在針對XX網管系統進行抓包分析,故障事件段內有大量OSPF的HELLO報文從XX網元匯聚交換機上進行轉發,但是無法通過防火牆轉發到服務器上,說明防火牆相關配置阻止了OSPF報文抓發。

一次客戶防火牆配置導致業務故障分析

4.2.XX網管網絡抓包分析
針對XXXXX,XXXXX傳輸網管網絡進行抓包分析,故障事件段內,有大量二層以太網幀從XXXXX,匯聚交換機上轉發,但是無法通過防火牆轉發到服務器上,說明防火牆阻止了相關二層數據包
一次客戶防火牆配置導致業務故障分析

4.3.更改防火牆配置
針對以上現象,並通過測試,調整防火牆相關配置:
1、配置全局網絡-非IP報文轉發
針對XX網管網絡存在OSPF不能轉發問題,設置防火牆轉發非IP報文。
一次客戶防火牆配置導致業務故障分析

2、配置虛擬交換機-轉發帶有標記數據包
針對XX網管網絡存在部分二層數據包不能抓發問題,設置防火牆轉發帶有標記的數據包。

一次客戶防火牆配置導致業務故障分析

經過以上配置,同時進行充分的測試,故障消失。

5.網絡中斷事件分析
經過分析和推斷,爲何23:45-00:00固定事件段網管網絡中斷,爲何防火牆上線一個多月期間並未發生此次故障,總結出以下可能原因:
1、XX網管網絡中的設備在23:45-00:00需要發送OSPF報文與服務器建立通信機制,進行某種業務操作,而在故障之前並未採取這種業務操作。
2、XX網管網絡中的設備在23:00-00:00需要建立帶有TAG的二層數據包與服務器建立通信機制,進行某種業務操作,而在故障之前並未採取這種業務操作。
3、XX,XX三套網管網絡在故障事件段同時進行業務操作機制不明,如有需要,要進行徹底排查。
6.相關建議
防火牆是嚴格按照指定策略規則進行數據包過濾和抓發,此次業務故障確實是因爲防火牆配置不當造成,但是同時也說明整個網絡存在網絡環境不合規和異常舉動,建議按照以下幾個方面對風險進行規避:
1、覈實XX、XX網管網絡中設備是否存在定時業務操作在23:45-00:00執行
2、對網管服務器進行漏洞掃描安全加固
3、推進等保評測,推進業務堡壘機使用

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章