今天不談技術,講一下前不久變更差點翻車的事。
背景:因爲安全原因,需要對生產上運行的windows服務器進行打補丁操作,由於是內網環境,只能離線方式進行升級。
配置說明:
編號 | 服務器型號 | 操作系統版本 | 補丁版本 |
---|---|---|---|
A1 | IBM X3650 M4 | Windows Server 2008 R2 Standard SP1 | 2017年7月 |
A2 | IBM X3650 M4 | Windows Server 2008 R2 Standard SP1 | 2017年7月 |
B1 | 浪潮 NF5280M4 | Windows Server 2008 R2 Standard SP1 | 2017年8月 |
B2 | 浪潮 NF5280M4 | Windows Server 2008 R2 Standard SP1 | 2017年8月 |
A1和A2組成一套環境,B1和B2組成一套環境,兩套環境互爲主備。
變更準備:
1.下載離線補丁包;
2.測試環境補丁升級;
測試環境與生產環境操作系統相同,離線包在測試環境升級時不是很順利,直接打到最新的11月份的補丁包失敗,摸索着由2017年的補丁一步一步往後打,可以打到2020年1月份。
變更實施:
由於測試環境打補丁只能到1月份,初步計劃生產環境4臺服務器也只打到1月份。
23:30,變更正式剛開始。按計劃先將第1臺打到了1月份,操作很順利,這時做了一個關鍵的臨時決定,試着直接打到最新的補丁包,結果有驚喜,居然打成了。好吧,那就臨時改計劃,將剩餘的3臺都升級到最新的補丁包。
前兩臺進行的很順利,第3臺和第4臺的時候卡住了。打補丁會重啓服務器,正常情況10分鐘就應該啓起來,20分鐘過去了還是ping不通連不上,沒得轍,只能去機房捅屁股了(現在系統都上雲了,去機房的機會越來越少了)。這時快3點了。
果然,第3臺在系統更新的時候卡住了,硬重啓系統恢復。
關鍵的4臺,居然崩潰了,是的,系統進不去,崩潰了……
晚上變更容易犯困,看到進不了系統,睏意全無,腎上腺素飆升。
時間來到快5點了,系統已經進不去,這時做了4個操作:1.停止第3臺的補丁升級操作;2.諮詢廠商,有無解決方案;3.通知系統使用方,做好切換準備;4.想辦法恢復系統。
變更之前通知過廠商晚上保障,預料過打補丁可能會失敗,但是沒想到系統直接會崩潰,沒辦法,事到如此,只能硬着頭皮上了,自己挖的坑,含淚也要填。
第一輪的自救不理想,廠商沒有解決辦法,自己百度的解決辦法也不成功。這時只能做最壞打算了——重裝系統和應用。
同時通知科室領導,說明情況;通知廠商,做好打飛的初始化系統的準備。自己也根據報錯提示不斷尋找解決辦法,死馬當活馬醫吧。這個時候壓力其實還是很大的,畢竟是生產系統,再過兩個小時就是業務高峯期。
時間快6點了,嘗試了各種辦法,做了兩個win pe,嘗試回退補丁,不成功,沒辦法,現在能做的只能嘗試更多的辦法,終於,有一個方案成功了,成功了,直接重置啓動項,居然進系統了,驚喜不驚喜,開心不開心。
系統恢復後,對應用做了各項檢查,運行正常,決定補丁暫停升級,通知科室經理、廠商、業務方系統恢復。
各項處理完快7點了,肚子很餓,精神卻很好,天也亮了,喫個早餐吧,打工人不能太虧待自己。
覆盤:
1.變更前的測試
變更前的測試影響變更成敗的關鍵,無論變更大小,只要有條件都應該進行測試。比如系統類的擴文件系統、擴表空間、文件清理、系統參數調整;應用類的新業務上線、應用切換、漏洞升級等。只有經歷過充分的測試,才能做到胸有成竹,生產上遇到問題也不慌。
2.變更實施
變更要有手冊,手冊規定了操作步驟,命令可直接複製執行,執行完後的結果有截圖,異常情況有回退方案。
變更實施應嚴格按測試結果執行,切忌臨時更改方案步驟。變更的操作只是機械的執行,主要工作都在變更前的準備測試階段。小到日誌清理,大到兩中心異地切換,變更實施都應該按手冊規範執行。
3.異常流程
生產上的變更會遇到各種問題,千奇百怪,可能測試環境和生產環境一樣(相同的操作系統版本、應用版本),但是執行結果不一樣,也有可能服務器在測試區各項測試都很正常,上了生產區卻有問題了。
出現這些問題很正常,因爲我們不能考慮到所有場景、環境、配置,這時應急流程就很重要了。出現了暫時無法解決的問題,需要有一套完善的應急預案和異常流程,這既是對自己減壓,也是儘可能降低對業務影響。
4.故障解決
出現的故障沒關係,解決它就是,運維就是填坑背鍋的嘛,填不了坑就光榮的背鍋。
故障的解決和個人的經驗和知識儲備有關,這個沒有捷徑,只能多學多做測試多總結多記錄了。
5.經驗教訓
這次是這些年來第二次變更遇到重大重大問題,第一次是服務器直接起不來。
運維的日常工作很繁雜,要會很多技術,知識面要求很寬,而且要不斷學習。
對服務器、對生產環境、對各種技術,要有敬畏之心,這些是我們工作的朋友夥伴,要善待它們而不是輕視或者藐視。
作爲一個運維人,我很自豪,以上只是個人的一個小感觸,僅代表個人觀點,不接受反駁,哈哈哈……