山石網科-Hillstone-HA(高可用)A/P環境固件版本業務平滑升級終結經驗篇

各位,好


我們在常見的企業邊緣的網絡架構中經常會遇到高可用、堆疊、VRRP等雙機部署情景,那我在前面介紹的一些案例當中,基本都是雙機部署,高可用的企業組網形式,

所以,基礎的配置也都在前面介紹了,但是卻沒有介紹高可用的狀態下如何升級硬件的OS的情景,這裏因爲在上週完成了一次(山石網科-HA)無縫遷移,所以我們這裏特意總結如下思路,

與各位分享,歡迎大家參閱指正。


廠商給出的升級解決方案書:【我這裏也列出來下,大家可以參考下,畢竟我的處理思路和廠商不一致】

抵達客戶現場前,首先確定客戶使用設備目前的版本信息,本次升級的目的,並提前下載好需要升級的版本。抵達客戶現場後,在升級前,仍需做以下準備工作。

1.  Consle 登錄兩臺防火牆,使用 show configuration 查看兩臺設備的當前配置,並備份設備配置。(同樣可使用 WebUI 登錄設備並進行配置備份)

2.  使用命令 show ha group 0 查看兩臺設備當前的主備關係,並關閉兩臺設備的HA 搶佔

【Allen回覆:實際更換中,除了HA搶佔,還有需要關閉monitor】

3.  開啓 TFTP,並將升級的版本放置 TFTP 文件夾。使用如下命令上傳新 OS,並將原 OS 作爲備用 OS,新上傳的 OS 作爲新 OS。

HillstoneSA_B# import  image  from  tftp  server  192.168.1.254

SG6000-M-2-5.0R3P12.bin

#########################################################

#########################################################

#########################################################

Verified OK

Remove existing images and save? [y]/n: y

Saving ................................................................

Checking saved firmware .............................. OK

Set SG6000-M-2-5.0R3P12.bin as active boot image

【Allen回覆:現在都web上傳了,誰還用tftp,這一步就差評,不夠體諒用戶技術水平】


爲備機進行升級

1. 拔掉備機業務線及 HA 心跳線,使備機下線關閉兩臺設備的 HA 需使用命令 no HA cluster1;

2. 重啓備機,升級備機固件版本;

3. 待備機升級成功後,使用命令 show version 查看設備當前版本,並使用 show configuration 對比備機原配置和當前配置;

【Allen回覆:這一步沒有建議使用什麼工具對比,難道要肉眼看?沒考慮用戶】

4. 拔掉主機業務線及 HA 心跳線,讓主機下線;

【Allen回覆:這裏描述太粗,因爲拔掉和備機上線是一起的操作】

5. 連接備機業務線及 HA 心跳線,此時業務流量走備機;

【Allen回覆:這裏主機的業務線和HA心跳線需要接入嗎?如果接入,爲什麼不在升級之後再連接主設備】

6. 觀察備機工作狀態,確保業務可以在備機上正常運行。

【Allen回覆:這一步完全可以在切換流量後一起確認,多餘】


爲主機進行升級

1. 將 OS 上傳至主機,並設置爲當前 OS,對主設備進行重啓;

2. 待主機升級成功後,使用 show version 查看設備當前版本,並使用命令 show

configuration 對比設備的原配置和當前配置;

3. 使用命令 ha group cluster1 在兩臺設備上開啓 HA;

4. 連接主機業務線和 HA 心跳線;

5. 待 HA 成功協商後,使用命令 preemt 爲主機配置搶佔,業務流量重新恢復到主機;

6. 觀察主機業務狀態,確保業務可以在主機上正常運行。

【Allen回覆:爲備/主機進行升級、這倆個步驟在描述中,用戶會默認認爲先進行備機,但是在整個實施過程當中,這兩步是有很多需要同時進行的,這裏描述太粗,差評】


其他升級注意事項:

  1.  最好在抵達客戶現場前提起拿到客戶設備的當前版本和配置,可以在公司使用測試設備對升級方案進行驗證。

【Allen回覆:客戶怎麼有可能有同樣的設備,作爲原廠應該提供升級測試報告+升級計劃建議書,而不是僅僅提供升級計劃建議書】

2.  由於設備切換間會有短暫的斷網,需與客戶提前溝通,確認具體的升級時間計劃。

【Allen回覆:我個人在整個升級過程當中,客戶業務完全沒有任何中斷,甚至丟包也之多隻有3個,這很明顯發現,這份建議書在技術上是有很大瑕疵的】




個人梳理後的操作步驟:(請現場同事同時記錄所有操作細節和完成時間)

PS:爲什麼要做這一步,因爲我們是一家專業的技術服務公司,所以我們隊每一個步驟都需要記錄,以供我們在後期覆盤與思考。這樣會有更多的總結出來。所以我們特意記錄了每一個節點的時間。紅字爲我個人記錄時間。


1.將主備防火牆配置文件web導出,本地備份(共計兩份)-可提前操作將主(備)設備搶佔功能關閉、HA檢測關閉,當前配置:主防火牆有搶佔、主備均掛在了track

總耗時:1分51秒

              

2.本地web執行上傳OS,主備同時進行,升級---【該步驟可提前給備防火牆實施】,並點擊暫不重啓按鈕。

總耗時:3分45秒


3.console接入備機,將備機設備剝離安能網絡環境,業務線、心跳線、內網線路全部拔掉,並將備機HA羣集ID,no掉。使其不運行HA協議,單機跑

總耗時:1分鐘內


4.本地console重啓備機,使OS版本爲前面上傳的最新版本。

總耗時:4分鐘


5.備機OS固件升級完成後,console:show version查看運行的版本,並使用show configuration比如當前配置文件。【notepad++或excel函數比較觀察】

總耗時:2分鐘


6.備機升級OS後配置文件確認無誤後,並確認沒有運行HA協議後進行流量切換的動作-預計可能會存在中斷1分鐘內

總耗時:1分鐘

主業務丟包:小於4個(用戶完全無感知)


7.在步驟6切換過程中,同時進行console接入主防火牆將主防火牆剝離安能網路環境,業務線、心跳線、內網線路全部拔掉。完成原備機流量的切換,所有線路(業務、心跳(down狀態)、內網),使流量切換至備防火牆。

總耗時:1分鐘


8.將備機的HA協議起來,即:目前正在跑流量的設備,切記這裏不要掛HA的檢測

總耗時:15秒


9.確認流量切換完成後,進行主防火牆重啓,使OS爲前面上傳的最新版本。

總耗時:3分13秒


10.比對主防火牆配置文件,查看版本,notepad++、excel對比確認

總耗時:2分鐘


11.將主防火牆和備防火牆的HA心跳線互聯,確認HA狀態協議是否正常:show ha group 0---成功時【此時協商日誌翻動】,並確認無搶佔

總耗時:18秒


12.console接入主防火牆,接入主防火牆業務、內網線路。確認HA狀態,並觀察業務網絡是否受影響,詳細觀察並測試主備防火牆公網虛擬IP、管理IP(BGP、CTC),是否正常Ping通,若業務存在影響即刻“拔掉”主防火牆所有線路。

總耗時:1分鐘

業務觀察時間:2分鐘


13.通知客戶團隊,協同確認所有監控是否已經正常恢復。

總耗時:1分鐘

客戶團隊確認業務耗時:15分鐘


14.console接入主防火牆,配置HA搶佔功能。還原升級前主備角色。

語法:show ha group 0 先確認ha狀態

Hillstone-A(config)# ha group 0

Hillstone-A(config-ha-group)# preempt

總耗時:35秒


15.模擬設備故障,測試高可用角色熱切換。觀察業務地址丟包情況並記錄。

總耗時:15秒

丟包情況:丟包1個(接受範圍內)


16*. 在維護窗口60分鐘中,若在40分鐘內依據升級流程未完成任務,執行回退工作。


IDC機房現場同事實際記錄時間爲:

11:45 開始執行操作

11:48 備防火牆固件上傳成功

12:00 拔掉所有備防火牆網線,並重啓備防火牆,確認備防火牆固件版本升級成功

12:07 配置比對完成,準備做流量切換操作

12:09 打電話給用戶目前下一步action可能會中斷業務,確認是否可以接受操作

PS:這一步是存在疑問的,因爲維護窗口已經確認,那期間所有操作是已經被授權的

12:11 用戶告知30分之後方可操作

12:30 確認操作並執行切換,並同時將主防火牆網線全部拔掉

12:31 觀察生產業務情況

12:32 確認業務正常,僅丟3個包

12:34 升級主防火牆的固件OS

12:36 將備防火牆的HA協議啓用

12:38 確認固件升級完畢,重啓主防火牆,使其固件版本升級成功

12:40 開始着手比對升級前後的配置文件

12:45 主防火牆配置比對結束

12:47 連接主防火牆和備防火牆HA心跳線路,並使確認HA協議運行正常

12:51 觀察HA雙機配置文件

12:53 與用戶溝通是否可以進行演練主備切換

12:59 模擬故障切換,切換期間業務IP丟包1個

13:01 確認此次升級計劃完成

PS:因中間客戶告知30分鐘之後纔可以執行,故回退計劃時間順延20分也就是13點,我們在此時間內已確認升級計劃結束。



綜上,就是我在給山石網科雙機升級時候的整體思路,並在真實環境中得到了充分的驗證,確實準備充足後,實施的過程不會出現任何差錯,別非常順利的完成了升級。關鍵是客戶完全沒有任何感知,這個是此次案例中,我作爲割接的“主刀”工程師的最自豪的地方。


所以這裏,再次嘮叨一句,大家不要太關注技術實現,適當的注意思路還有文檔的撰寫。

                  —————來自一家二級運營商的網工分享,勤奮、努力、專注,除了這些沒別的祕訣!!

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章