記一次差點翻車的生產變更

今天不談技術,講一下前不久變更差點翻車的事。

背景:因爲安全原因,需要對生產上運行的windows服務器進行打補丁操作,由於是內網環境,只能離線方式進行升級。

配置說明:

編號 服務器型號 操作系統版本 補丁版本
A1 IBM X3650 M4 Windows Server 2008 R2 Standard SP1 2017年7月
A2 IBM X3650 M4 Windows Server 2008 R2 Standard SP1 2017年7月
B1 浪潮 NF5280M4 Windows Server 2008 R2 Standard SP1 2017年8月
B2 浪潮 NF5280M4 Windows Server 2008 R2 Standard SP1 2017年8月

A1和A2組成一套環境,B1和B2組成一套環境,兩套環境互爲主備。

變更準備:

1.下載離線補丁包;

2.測試環境補丁升級;

測試環境與生產環境操作系統相同,離線包在測試環境升級時不是很順利,直接打到最新的11月份的補丁包失敗,摸索着由2017年的補丁一步一步往後打,可以打到2020年1月份。

變更實施:

由於測試環境打補丁只能到1月份,初步計劃生產環境4臺服務器也只打到1月份。

23:30,變更正式剛開始。按計劃先將第1臺打到了1月份,操作很順利,這時做了一個關鍵的臨時決定,試着直接打到最新的補丁包,結果有驚喜,居然打成了。好吧,那就臨時改計劃,將剩餘的3臺都升級到最新的補丁包。

前兩臺進行的很順利,第3臺和第4臺的時候卡住了。打補丁會重啓服務器,正常情況10分鐘就應該啓起來,20分鐘過去了還是ping不通連不上,沒得轍,只能去機房捅屁股了(現在系統都上雲了,去機房的機會越來越少了)。這時快3點了。

果然,第3臺在系統更新的時候卡住了,硬重啓系統恢復。

關鍵的4臺,居然崩潰了,是的,系統進不去,崩潰了……

晚上變更容易犯困,看到進不了系統,睏意全無,腎上腺素飆升。

時間來到快5點了,系統已經進不去,這時做了4個操作:1.停止第3臺的補丁升級操作;2.諮詢廠商,有無解決方案;3.通知系統使用方,做好切換準備;4.想辦法恢復系統。

變更之前通知過廠商晚上保障,預料過打補丁可能會失敗,但是沒想到系統直接會崩潰,沒辦法,事到如此,只能硬着頭皮上了,自己挖的坑,含淚也要填。

第一輪的自救不理想,廠商沒有解決辦法,自己百度的解決辦法也不成功。這時只能做最壞打算了——重裝系統和應用。

同時通知科室領導,說明情況;通知廠商,做好打飛的初始化系統的準備。自己也根據報錯提示不斷尋找解決辦法,死馬當活馬醫吧。這個時候壓力其實還是很大的,畢竟是生產系統,再過兩個小時就是業務高峯期。

時間快6點了,嘗試了各種辦法,做了兩個win pe,嘗試回退補丁,不成功,沒辦法,現在能做的只能嘗試更多的辦法,終於,有一個方案成功了,成功了,直接重置啓動項,居然進系統了,驚喜不驚喜,開心不開心。

系統恢復後,對應用做了各項檢查,運行正常,決定補丁暫停升級,通知科室經理、廠商、業務方系統恢復。

各項處理完快7點了,肚子很餓,精神卻很好,天也亮了,喫個早餐吧,打工人不能太虧待自己。

覆盤:

1.變更前的測試

變更前的測試影響變更成敗的關鍵,無論變更大小,只要有條件都應該進行測試。比如系統類的擴文件系統、擴表空間、文件清理、系統參數調整;應用類的新業務上線、應用切換、漏洞升級等。只有經歷過充分的測試,才能做到胸有成竹,生產上遇到問題也不慌。

2.變更實施

變更要有手冊,手冊規定了操作步驟,命令可直接複製執行,執行完後的結果有截圖,異常情況有回退方案。

變更實施應嚴格按測試結果執行,切忌臨時更改方案步驟。變更的操作只是機械的執行,主要工作都在變更前的準備測試階段。小到日誌清理,大到兩中心異地切換,變更實施都應該按手冊規範執行。

3.異常流程

生產上的變更會遇到各種問題,千奇百怪,可能測試環境和生產環境一樣(相同的操作系統版本、應用版本),但是執行結果不一樣,也有可能服務器在測試區各項測試都很正常,上了生產區卻有問題了。

出現這些問題很正常,因爲我們不能考慮到所有場景、環境、配置,這時應急流程就很重要了。出現了暫時無法解決的問題,需要有一套完善的應急預案和異常流程,這既是對自己減壓,也是儘可能降低對業務影響。

4.故障解決

出現的故障沒關係,解決它就是,運維就是填坑背鍋的嘛,填不了坑就光榮的背鍋。

故障的解決和個人的經驗和知識儲備有關,這個沒有捷徑,只能多學多做測試多總結多記錄了。

5.經驗教訓

這次是這些年來第二次變更遇到重大重大問題,第一次是服務器直接起不來。

運維的日常工作很繁雜,要會很多技術,知識面要求很寬,而且要不斷學習。

對服務器、對生產環境、對各種技術,要有敬畏之心,這些是我們工作的朋友夥伴,要善待它們而不是輕視或者藐視。

作爲一個運維人,我很自豪,以上只是個人的一個小感觸,僅代表個人觀點,不接受反駁,哈哈哈……

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章