機房的學習

前天去客戶現場配合進行服務器的電源改造。

由於以前對該系統不熟悉,有沒有對其熟悉的人介紹情況,所以提前瞭解了一下情況。只知道有四臺機器,跑着我們的兩個業務。

準備階段:

第一次到機房,對了機架上的標牌看了半天。作爲電信行業的機房,雖然管理上不是很完善,但標註信息還是比較清楚的。機架上按照順序列出了各個服務器和網絡設備的名稱。觀察服務器狀態,其中一個的黃色警告燈是亮的,證明有一定問題。但客戶的管理員稱不影響升級。

windows的雙機系統,在羣集管理器中根據機器名稱確認了拓撲關係:其中兩臺是一個雙機系統,一臺跑着另外一個應用,剩下的一臺是個擺設。磁陣掛載服務器A上,但羣集有問題,心跳是通的,但對外IP有故障。

備份了應用程序,拷貝到移動硬盤上。(聽說有的服務器插上USB設備會告警,這個確實需要注意)網絡工程師幫忙將路由器和交換機的配置導出來,拷貝就算結束了。

與客戶敘述了一遍測試方法,並寫好語句放在服務器上。

再將拓撲圖搞定,準備完畢。

操作階段:

首先檢查應用的使用情況,確認一切正常後關閉了通訊程序,然後關掉頁面程序,關閉羣集中未掛載磁陣的服務器B,掛載磁陣的服務器A,關閉KVM,關閉磁陣,關閉網絡設備。

進行電源線的梳理和改造。

啓動順序與關閉相反:將網絡設備啓動,將磁盤陣列打開,將KVM打開,將未掛載磁陣的服務器B打開,掛載磁陣的服務器A打開。

這時候發現數據庫正常啓動了,然後啓動頁面程序和通訊程序。

業務測試開始,但發現數據庫無法對外服務。檢查原因,發現磁陣掛載在服務器B上,而且羣集管理器打不開。

重新看了一下操作順序,發現啓動順序有些問題,應該是先將A服務器打開才能保證磁陣掛載A上。而當時不知道KVM如何切換,這可真是急啊。下一步的操作如何進行,需要做出決策了。但客戶似乎並不想承擔,至少向領導請示,按照自己的想法來了:重啓服務器B。未操作時,偶然發現KVM只需要連按兩次大小寫鎖定鍵就可以實現屏幕切換。這個一定要記住了!

兩臺服務器A和B 的IP還是有問題,又與其他的服務器比較了一下,發現IP根本就有問題,將網段更改,然後打開羣集能夠看到兩個節點了,雖然還有故障的標記,但至少是個進步。

將節點B脫離出去,使磁陣自動切換到節點A,然後再將其切換回來,一切正常了。

兩外一臺服務器也啓動後,打開應用程序和數據庫,進行業務測試。

 

總結一下經驗和教訓:

首先,對於服務器的操作一定要對步驟慎重,再慎重。即使是經過評審了,最後實施的是誰,還是要對其有可以接受的把握--畢竟在現場需要承受更大的壓力,大半夜的實施,沒幾個人可以真正幫得上你。

其次,還是要多學,像KVM這些輔助設備,也是需要有更多的瞭解的;服務器的指示燈,有時候也能幫助我們進行判斷。

最後,羣集操作,還是得有更多的實踐。windows和類unix系統其實操作原理上還是很像的,得觸類旁通。

能實踐,還是很令人興奮的,而且最終的問題都被解決了,不錯。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章