記錄一次3ware 卡的Raid10重建

我們公司有唯一一臺長城的服務器NS3120,有12250G硬盤。應該是20058月份左右買的,用來做公司主存儲,命名主機名稱用nas。到去年8月份就過了保修期。
  上週6突然收到很多這樣的郵件警告:
Subject3ware 3DM2 alert -- host: nas
20090919192526 - Controller 0

WARNING - Sector repair completed: port=2, LBA=0x1B6BD900

後來又有內容如下的警告:
20090919192925 - Controller 0

ERROR - Degraded unit: unit=0, port=2

20090919192925 - Controller 0

ERROR - Drive timeout detected: port=2

 20090919000129 - Controller 0

WARNING - SMART threshold exceeded: port=2

因爲是週末郵件都是到了晚上纔看到。當然服務器日誌message裏面也出現了很多這樣的錯誤。

這時候我登錄到nas服務器上,輸入tw_cli(有很多人可能喜歡tw_cli 後直接接命令,像tw_cli info c0 u0 等,但我更喜歡先進入tw_cli的命令界面後,再進行別的操作),得到:

 

[root@nas ~]# tw_cli

//nas> info c0 u0

 

Unit     UnitType  Status         %Cmpl  Port  Stripe  Size(GB)  Blocks

-----------------------------------------------------------------------

u0       RAID-10   DEGRADED*      -      -     64K     1396.92   2929557504 

u0-0     RAID-1    OK             -      -     -       -         -

u0-0-0   DISK      OK             -      p10   -       232.82    488259584  

u0-0-1   DISK      OK             -      p11   -       232.82    488259584  

u0-1     RAID-1    OK             -      -     -       -         -

u0-1-0   DISK      OK             -      p8    -       232.82    488259584  

u0-1-1   DISK      OK             -      p9    -       232.82    488259584  

u0-2     RAID-1    OK             -      -     -       -         -

u0-2-0   DISK      OK             -      p6    -       232.82    488259584  

u0-2-1   DISK      OK             -      p7    -       232.82    488259584  

u0-3     RAID-1    OK             -      -     -       -         -

u0-3-0   DISK      OK             -      p4    -       232.82    488259584  

u0-3-1   DISK      OK             -      p5    -       232.82    488259584  

u0-4     RAID-1    DEGRADED       -      -     -       -         -

u0-4-0   DISK      DEGRADED       -      p2    -       232.82    488259584  

u0-4-1   DISK      OK             -      p3    -       232.82    488259584  

u0-5     RAID-1    OK             -      -     -       -         -

u0-5-0   DISK      OK             -      p0    -       232.82    488259584  

u0-5-1   DISK      OK             -      p1    -       232.82    488259584  

 

//nas> info c0

 

 Unit  UnitType  Status         %Cmpl  Stripe  Size(GB)  Cache  AVerify  IgnECC

------------------------------------------------------------------------------

u0    RAID-10   DEGRADED       -      64K     1396.92   ON     OFF      OFF     

 

Port   Status           Unit   Size        Blocks        Serial

---------------------------------------------------------------

p0     OK               u0     232.88 GB   488397168     WD-WCAL76280314    

p1     OK               u0     232.88 GB   488397168     WD-WCAL76207833    

p2     DEVICE-ERROR     u0     232.88 GB   488397168     WD-WCAL73516836    

p3     OK               u0     232.88 GB   488397168     WD-WCAL73587842    

p4     OK               u0     232.88 GB   488397168     WD-WCAL75670919    

p5     OK               u0     232.88 GB   488397168     WD-WCAL76197410    

p6     OK               u0     232.88 GB   488397168     WD-WCAL73498032    

p7     OK               u0     232.88 GB   488397168     WD-WCAL73588557    

p8     OK               u0     232.88 GB   488397168     WD-WCAL76291855    

p9     OK               u0     232.88 GB   488397168     WD-WCAL76254218    

p10    OK               u0     232.88 GB   488397168     WD-WCAL76251971    

p11    OK               u0     232.88 GB   488397168     WD-WCAL76280979    

 

查看raid卡序列號 

//nas> info c0 serial

/c0 Serial Number = F19302A4430087

 查看raid卡型號

//nas> info c0 model

/c0 Model = 9500S-12

 

由上面的輸出,顯示u0-4-0   DISK      DEGRADED       -      p2    -       232.82    488259584  這個硬盤已經降級,發現p2     DEVICE-ERROR     u0     232.88 GB   488397168     WD-WCAL73516836Port2 出現device-error ,基本可以判定port2上的硬盤壞了(或者說可能快壞了,最好更換)。

撥長城400技術售後電話,無法接通(不再上班時間段),等到週日再撥,叫我聯繫蘇州地區維修點。蘇州維修點週日不上班,再等到週一。

這時候心裏其實很着急的,因爲這個主存儲器上放了公司很多重要的東西,而且硬盤被頻繁讀寫了這麼多年,如果損壞影響會比較大,不過唯一比較安慰的就是從周5到周6晚上我已經完成了重要數據的備份。使用rsync同步1.1T8053566個左右文件,耗時共39.5小時。

好不容易捱到週一,打蘇州維修告訴了他們具體情況比如(機器型號,硬盤大小,raid卡型號3ware 9500S-12),因爲對長城的服務器不熟,因爲我們服務器不方便關機重啓,然後諮詢了幾個問題

1.       我們這個服務器是否支持熱插拔

2.       是否支持raid卡的raid10自動重建

3.       如果我自己更換一個320G的硬盤是否可以

4.       如果不支持我怎麼自己來rebuild

 

他們說需要查詢總部,然後沒消息了,打過幾次電話過去給了些沒用的信息,打長城總部技術支持也這樣,還聯繫過南京維修點。共打了估計10次電話吧,總之都沒有人回答我這幾個基本問題。這次對長城服務器的售後維護這塊超級不滿意。到我記錄爲止(現在已經周3早上了,還沒有給我明確答覆)。我估計是因爲可能長城不主攻服務器市場,裏面的技術工程師都是桌面機的。而且他們和客戶聯繫的好像都是普通工程師,問個什麼問題都說要和後臺工程師確認,而且效率超級慢,爲什麼不能讓“厲害”的後臺工程師直接和客戶聯繫呢? 最後看來是不能指望長城的售後了,只能自己到3ware的網站去翻資料,熟悉了下9500s-12卡,但是沒有明確看到autorebuild 功能。

因爲同步過一次數據,心裏稍微放心點,心想自己弄吧。如果真壞了,大不了就用我備份服務器上的數據。根據以往換別的服務器的經驗,週一晚上定了塊320G的西數企業硬盤(目前市場上很難買到250G的西數企業硬盤了。)周2拿到了硬盤,然後再次同步了下最重要的cvs數據。

 到了晚上,我走進機房,再次確認了下是port2口,撥下硬盤然後用tw_cli info c0 u0 查看信息沒任何變化。

更換托架新硬盤插入,輸出信息還是沒有任何變化。這個卡不支持自動rebuild 只能手動了rebuild了。

通過網上的資料,輸入:

 

 

  我這裏輸入的是p0,當時由於按錯了本來應該輸入p2的,哈哈,還好RAID10,移除一個沒有問題。

錯誤移除了p0,那就先對p0重建吧。
過了會查看狀態:
可以看出p0上的硬盤已經rebuild完成了40% 差不多1個半小時,P0上的硬盤全部完成。
按照同樣的方法對p2硬盤rebuild.
maint remove c0 p2
maint rescan c0
maint rebuild c0 u0 p2
再等了差不多1個半小時全部完成。
可以看出p2上的硬盤是WD-WCAT和別的硬盤WD-WCAL不一樣的,這個是我新換上的320G的硬盤。到此raid10修復全部完成。
  其實,最重要就是膽大(我主要是有備份所有心裏不怎麼擔心),心細(當然不能像我這樣把p2,打成p0哦,如果你是raid5,那就慘了。)
  2天的擔心終於可以輕鬆下了,以後再出現這樣的硬盤問題就能很快更換上。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章