記錄一次3ware 卡的Raid10重建

我們公司有唯一一臺長城的服務器NS3120，有12個250G硬盤。應該是2005年8月份左右買的，用來做公司主存儲，命名主機名稱用nas。到去年8月份就過了保修期。

上週6突然收到很多這樣的郵件警告：

Subject：3ware 3DM2 alert -- host: nas

20090919192526 - Controller 0

WARNING - Sector repair completed: port=2, LBA=0x1B6BD900

後來又有內容如下的警告：

20090919192925 - Controller 0

20090919000129 - Controller 0

WARNING - SMART threshold exceeded: port=2

因爲是週末郵件都是到了晚上纔看到。當然服務器日誌message裏面也出現了很多這樣的錯誤。

這時候我登錄到nas服務器上，輸入tw_cli（有很多人可能喜歡tw_cli 後直接接命令，像tw_cli info c0 u0 等，但我更喜歡先進入tw_cli的命令界面後，再進行別的操作），得到：

[root@nas ~]# tw_cli

//nas> info c0 u0

Unit UnitType Status %Cmpl Port Stripe Size(GB) Blocks

-----------------------------------------------------------------------

u0 RAID-10 DEGRADED* - - 64K 1396.92 2929557504

u0-0 RAID-1 OK - - - - -

u0-0-0 DISK OK - p10 - 232.82 488259584

u0-0-1 DISK OK - p11 - 232.82 488259584

u0-1 RAID-1 OK - - - - -

u0-1-0 DISK OK - p8 - 232.82 488259584

u0-1-1 DISK OK - p9 - 232.82 488259584

u0-2 RAID-1 OK - - - - -

u0-2-0 DISK OK - p6 - 232.82 488259584

u0-2-1 DISK OK - p7 - 232.82 488259584

u0-3 RAID-1 OK - - - - -

u0-3-0 DISK OK - p4 - 232.82 488259584

u0-3-1 DISK OK - p5 - 232.82 488259584

u0-4 RAID-1 DEGRADED - - - - -

u0-4-0 DISK DEGRADED - p2 - 232.82 488259584

u0-4-1 DISK OK - p3 - 232.82 488259584

u0-5 RAID-1 OK - - - - -

u0-5-0 DISK OK - p0 - 232.82 488259584

u0-5-1 DISK OK - p1 - 232.82 488259584

//nas> info c0

Unit UnitType Status %Cmpl Stripe Size(GB) Cache AVerify IgnECC

------------------------------------------------------------------------------

u0 RAID-10 DEGRADED - 64K 1396.92 ON OFF OFF

Port Status Unit Size Blocks Serial

---------------------------------------------------------------

p0 OK u0 232.88 GB 488397168 WD-WCAL76280314

p1 OK u0 232.88 GB 488397168 WD-WCAL76207833

p2 DEVICE-ERROR u0 232.88 GB 488397168 WD-WCAL73516836

p3 OK u0 232.88 GB 488397168 WD-WCAL73587842

p4 OK u0 232.88 GB 488397168 WD-WCAL75670919

p5 OK u0 232.88 GB 488397168 WD-WCAL76197410

p6 OK u0 232.88 GB 488397168 WD-WCAL73498032

p7 OK u0 232.88 GB 488397168 WD-WCAL73588557

p8 OK u0 232.88 GB 488397168 WD-WCAL76291855

p9 OK u0 232.88 GB 488397168 WD-WCAL76254218

p10 OK u0 232.88 GB 488397168 WD-WCAL76251971

p11 OK u0 232.88 GB 488397168 WD-WCAL76280979

查看raid卡序列號

//nas> info c0 serial

/c0 Serial Number = F19302A4430087

查看raid卡型號

//nas> info c0 model

/c0 Model = 9500S-12

由上面的輸出，顯示u0-4-0 DISK DEGRADED - p2 - 232.82 488259584 這個硬盤已經降級，發現p2 DEVICE-ERROR u0 232.88 GB 488397168 WD-WCAL73516836在Port2 出現device-error ，基本可以判定port2上的硬盤壞了（或者說可能快壞了，最好更換）。

撥長城400技術售後電話，無法接通（不再上班時間段），等到週日再撥，叫我聯繫蘇州地區維修點。蘇州維修點週日不上班，再等到週一。

這時候心裏其實很着急的，因爲這個主存儲器上放了公司很多重要的東西，而且硬盤被頻繁讀寫了這麼多年，如果損壞影響會比較大，不過唯一比較安慰的就是從周5到周6晚上我已經完成了重要數據的備份。使用rsync同步1.1T共8053566個左右文件，耗時共39.5小時。

好不容易捱到週一，打蘇州維修告訴了他們具體情況比如（機器型號，硬盤大小，raid卡型號3ware 9500S-12），因爲對長城的服務器不熟，因爲我們服務器不方便關機重啓，然後諮詢了幾個問題

1. 我們這個服務器是否支持熱插拔

2. 是否支持raid卡的raid10自動重建

3. 如果我自己更換一個320G的硬盤是否可以

4. 如果不支持我怎麼自己來rebuild

他們說需要查詢總部，然後沒消息了，打過幾次電話過去給了些沒用的信息，打長城總部技術支持也這樣，還聯繫過南京維修點。共打了估計10次電話吧，總之都沒有人回答我這幾個基本問題。這次對長城服務器的售後維護這塊超級不滿意。到我記錄爲止（現在已經周3早上了，還沒有給我明確答覆）。我估計是因爲可能長城不主攻服務器市場，裏面的技術工程師都是桌面機的。而且他們和客戶聯繫的好像都是普通工程師，問個什麼問題都說要和後臺工程師確認，而且效率超級慢，爲什麼不能讓“厲害”的後臺工程師直接和客戶聯繫呢？最後看來是不能指望長城的售後了，只能自己到3ware的網站去翻資料，熟悉了下9500s-12卡，但是沒有明確看到autorebuild 功能。

因爲同步過一次數據，心裏稍微放心點，心想自己弄吧。如果真壞了，大不了就用我備份服務器上的數據。根據以往換別的服務器的經驗，週一晚上定了塊320G的西數企業硬盤（目前市場上很難買到250G的西數企業硬盤了。）周2拿到了硬盤，然後再次同步了下最重要的cvs數據。

到了晚上，我走進機房，再次確認了下是port2口，撥下硬盤然後用tw_cli info c0 u0 查看信息沒任何變化。

更換托架新硬盤插入，輸出信息還是沒有任何變化。這個卡不支持自動rebuild ？只能手動了rebuild了。

通過網上的資料，輸入：

我這裏輸入的是p0，當時由於按錯了本來應該輸入p2的，哈哈，還好RAID10,移除一個沒有問題。

錯誤移除了p0，那就先對p0重建吧。

過了會查看狀態：

可以看出p0上的硬盤已經rebuild完成了40%。差不多1個半小時，P0上的硬盤全部完成。

按照同樣的方法對p2硬盤rebuild.

maint remove c0 p2

maint rescan c0

maint rebuild c0 u0 p2

再等了差不多1個半小時全部完成。

可以看出p2上的硬盤是WD-WCAT和別的硬盤WD-WCAL不一樣的，這個是我新換上的320G的硬盤。到此raid10修復全部完成。

其實，最重要就是膽大（我主要是有備份所有心裏不怎麼擔心），心細（當然不能像我這樣把p2，打成p0哦，如果你是raid5，那就慘了。）

這2天的擔心終於可以輕鬆下了，以後再出現這樣的硬盤問題就能很快更換上。

記錄一次3ware 卡的Raid10重建

我的友情鏈接

聯想U310系統安裝

Juniper IPsec *** windows 7客戶端

Google Wave 邀請

Netscreen OS 5.x共享 IKE ID (IKE+XAuth)***設置

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結