服務器RAID 硬盤容量擴展 Extend 操作失誤的應急方法

前兩個blog 分別描述了 Dell 和 HP 系列服務器通過 Extend 方法來擴展RAID 磁盤容量的方法。只要稍加註意,在生產環境中操作之前先在測試環境中稍加練習就會熟悉流程,而不至於操作失誤。 至少我操作的幾個案例都工作的很好。 本文只是提供了在 某些我們尚不知曉的極端情況下,如果Extend 過程中失敗,如何快速恢復原有系統的方法。 這樣,至少應該可以打消很多人對於 Dell PERC 沒有官方支持 Extend 帶來的不安。

 

對於恢復操作,最重要的當然就是在Extend 過程中被替換掉的那些原來的硬盤了。它們構成了恢復的基礎,只要數量,順序(哪個硬盤在哪個槽位中)都正確,不混亂,則可以很容易的迅速恢復原有系統。而且根據我的測試,即使個別硬盤缺失,只要RAID 冗餘尚能重建數據,就仍然可以恢復所有數據。下面來詳細說明。

 

1.  Dell, 對於Dell PERC,Extend失敗時,RAID BIOS中的 virtual disk 已經被刪除乃至被建立了新的vd。即使如此,恢復仍然很簡單:

 

a.   關機,將現有(extend用的)硬盤全部取出,將原來被extend 替換的硬盤全部按照每個硬盤的原位(硬盤槽位)放入。

b.   開機,到 PERC RAID BIOS 這裏時, 會顯示如下, “all of the disks 。。。” 這一段要稍等一下才會出來。 在這裏,按“C” 載入 RAID 配置程序

 

c.   然後出現如下界面,再次警告,因爲可能導致現有RAID配置 (也就是失敗的extend)的丟失,不理睬,按 “Y” 載入RAID 配置程序

 

 

d.  這時會多出一個 “foreign view” 菜單,如圖 import。  import 什麼呢?  是從新插入的原來的硬盤中導入原來的RAID配置信息。導入的同時當然也就覆蓋了失敗的Extend用的RAID配置信息。

 

e.   再次警告,這是單行道不可逆。點擊ok。然後退出 RAID 配置程序,ctrl + alt + del 重啓機器。

 

 

f.  這就是結果,OS中不需要做任何修復動作,一切都恢復Extend操作之前的原樣。 如果你還是想Extend,那麼可以從這裏開始,重新Extend,呵呵,總會成功的,反正有原來的硬盤做保險。

 

 

總結:   RAID 配置信息不止存儲在 RAID adapter卡中,還存儲在RAID中的每一塊硬盤上。 RAID 卡也可以從硬盤中讀取RAID信息來恢復RAID配置,當然前提是原有硬盤都在,而且都安裝原來的順序放置在各個硬盤槽位中。

 

測試過程中還發現,實際上,並不需要“所有”原有硬盤都在,只要數據足以能夠恢復的硬盤數量就可以。例如 RAID1 兩塊硬盤中只要有一塊硬盤在,例外一塊隨便從什麼地方湊一個來即可。 如果是 三塊硬盤的RAID 5,則只要有兩塊硬盤按照原來的位置放入硬盤槽位,另一塊隨便湊一塊來即可。這時,

X.   如果湊數的這個硬盤是新的,也就是全空,其中並無數據,也無RAID配置信息,則操作流程和以上完全相同。不同之處在於,進入OS後你會在 Dell OpenManage server administrator 和 event log 中發現 PERC 卡正在做 RAID 恢復,也就是從已有硬盤中恢復數據到新加入的這個硬盤上,恢復完成後,I/O性能就能恢復。

 

Y.  如果湊數的這個硬盤已經被用過,其中有別處的RAID信息,那麼執行本文所列的恢復操作之前,應該將這塊硬盤單獨放入硬盤槽位 --- 只它一個,任何槽位都------- 然後按照 1.b, 1.c 步驟進入 RAID 配置程序。 在這裏,對於 1.d 步驟中的 Foreign config 不要用 import,而用clear, 這樣就將該硬盤上的別處的RAID配置信息清除了。 然後參考上述 x 步驟即可。

如果不執行 clear, 則 1.d 步驟會出現混亂,因爲對於server,這個湊數的硬盤上有別處的RAID配置信息,插入的原本被extend替換的硬盤還有原來的RAID配置信息,Dell RAID 配置程序中不會列出兩個給你選擇 import 哪一個。 

 

---------  有趣吧,即使到這個時候,RAID 數據保護仍然是有效的。

 

 

2.  HP,  HP smart array 卡的恢復流程和Dell完全不同。

 

a.  關機,和 Dell 恢復類似,將Extend 時被替換的原有硬盤全部按照順序(硬盤槽位)放入硬盤,Extend時失敗的那些硬盤全部取出。開機。到 SA 卡檢測 logical drive時會出現如下界面。  1794 這段可以忽略,這是 RAID卡的電池電量不足造成回寫緩衝被臨時禁用了。

 

1779 這一段就是 SA 卡識別了硬盤替換,是否要disable 替換上來的 logical drive (也就是RAID)--- 會造成沒有硬盤,無法啓動。---- 或者接受改變,enable 替換上來的硬盤上的RAID。 按 F2,

 

b.  F2 按過後,1779這段還會出現一次,做警告。就偷懶不截圖了。 再次按 F2,ok 就進入OS了。 和 Dell 類似,OS 中不需要做任何操作,RAID卡都不會做什麼操作,因爲 RAID 信息和現有硬盤完全匹配,不需要RAID 恢復。  -----  HP 上需要注意的是,看event log,其中有記錄表示還需要重啓一次 (期間所有提示都不要做任何操作),這個被接受的RAID配置信息才能被確定保留,將來使用。 

 

c.  HP 上也可以如Dell 上一般,並不需要“所有”原有硬盤都在,只要數據足以能夠恢復的硬盤數量就可以。例如 RAID1 兩塊硬盤中只要有一塊硬盤在,例外一塊隨便從什麼地方湊一個來即可。 如果是 三塊硬盤的RAID 5,則只要有兩塊硬盤按照原來的位置放入硬盤槽位,另一塊隨便湊一塊來即可。  這時,

 

X.   如果湊數的那個是空硬盤,其中沒有別處的RAID信息,界面會發生變化,如下,會出現 1788 信息。  兩次按F2,進入OS 和Dell上操作一致。就能看見 RAID 在恢復中,然後同樣需要再重啓一次來接受RAID配置信息。

 

 

Y.   如果湊數的這個硬盤已經被用過,其中有別處的RAID信息, ----- 此處和Dell  PERC不同  ------ 

可以將該硬盤單獨放入然後啓動機器,看啓動信息,F8 進入 RAID 配置界面,刪除 logical drive (也就是RAID)信息,然後關機,再將被Extend替換的所有硬盤分別放入,再次開機。。。  ------ 這是和Dell 較類似的操作方法。

也可以將該硬盤和被Extend替換的所有硬盤同時放入, 仔細注意開機信息,F8 進入RAID 配置界面 (1788  F1還是F2這裏不操作,或者用缺省的F1),刪除這塊硬盤上的RAID 信息 (logical drive) -----別刪錯了----- ,然後退出再次重啓  

 

這兩種方法類似,都是先清理別處硬盤上的別處 RAID信息,只是有不同的方法,操作時要特別看清楚,清理錯對象可就無藥可救了。

 

---- HP 的截圖少了點,主要是我這裏HP的都是老機器,不想再折騰這些老機器了。光看文字可能難爲了讀者,不過只要操練過相關硬件的朋友,應該沒問題吧,畢竟關鍵地方的截圖已經貼上了。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章