XXX公司JUNIPER防火牆系統

 

1      故障現象
XXX公司防火牆雙機結構如下所示:
 
新部署的JUNPER SRX3400防火牆雙機系統通過全冗餘的架構分別連接到地市核心設備和地市出口設備。兩臺SRX3400之間通過JSRP冗餘協議實現相互之間的互爲備份和故障時的快速切換。
正常情況下,流量均通過SRX3400-A防火牆處理,當SRX3400-A偵測到接口鏈路中斷、或目的IP地址不能訪問、或者SRX3400-A斷電時,將快速切換到備用的SRX3400-B防火牆上,此時所有的流量將通過SRX3400-B處理。
經過分析,此次故障發生時,主用設備由於異常原因(SPC防火牆業務處理模塊硬件故障)導致不能正常轉發數據,而主用設備的SFB模塊也出現了硬件故障,使得心跳線路偵測異常,導致備用設備處於disable狀態,未能切換到主用狀態接管流量,因此主備用設備均處於不轉發數據狀態,從而導致業務中斷。
2      原因分析
經過現場獲取的日誌和設備狀況分析,確認此次故障的原因在於主用防火牆SRX3400-A的SPC業務處理模塊和交換矩陣SFB模塊同時出現了硬件故障,由於防火牆的數據處理和轉發均通過SPC模塊實現,而主備防火牆之間的HA心跳線路是通過SFB上的HA接口實現相互之間的HA數據互通、狀態偵測和同步等的處理,因此:
主用SRX3400-A的SPC模塊硬件故障導致SRX-A的停止轉發;
同時主用SRX3400-A的SFB矩陣模塊硬件故障導致雙機之間的HA接口中斷,從而導致備用防火牆無法判斷主用防火牆的狀態,爲了避免防火牆雙機出現雙主的問題,因此備機自動轉爲disable狀態;
此時兩臺SRX3400均處於不轉發數據狀態。
此次故障是在非常特殊的情況(主用設備的SPC模塊和SFB模塊同一時間出現硬件故障)下的極個別問題,正常情況下雙機都能夠實現快速的故障切換機制,包括了設備故障、設備斷電,端口Down以及目的IP地址無法到達等,並相應進行了HA雙機的測試。因此在其他地市不會出現銅陵的故障情況。
3      處理方案
針對此次故障的處理方案是:
將SRX-B備用設備重啓,進入正常的轉發狀態,提供單機狀態下的數據報文處理;
儘快更換SRX-A上的SPC和SFB硬件模塊,恢復正常的雙機熱備狀態。具體的操作過程如下所示:
目前的工作狀態爲,原有的node0節點的設備因故障已經斷電,原有的node1節點的設備從備用設備轉爲主用設備,正常轉發數據;
備份現有的node1上的設備配置;此過程不影響業務和應用;
更換node0設備上的SPC模塊並測試狀態是否正常,此過程不影響業務和應用;
修改node0設備的配置,與在用的node1設備保持一致,此過程不影響業務和應用;
將node0設備關機,按照原有設計拓撲,連接node0和node1上的所有接口的線路,此過程不影響業務和應用;
將node0設備加電啓動,待node0設備啓動正常後,查看雙機cluster的狀態是否正常,此過程可能會影響業務和應用,時間在10分種以內;
將node0和node1實現主備切換,此過程不影響業務和應用;
查看雙機cluster狀態,測試業務和應用。
4      應急預案
今後,針對類似故障的應急處理預案是:
出現雙機狀態異常時,判斷備用設備是否處於Disable狀態;
首先重啓主用設備,判斷是否能正常轉發,
如主用設備重啓後不能正常轉發,則重啓處於Disable狀態的備用設備,通過備用設備單機提供轉發服務。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章