我們公司有唯一一臺長城的服務器NS3120,有12個250G 硬盤。應該是2005 年8月份左右買的,用來做公司主存儲,命名主機名稱用nas。到去年8月份就過了保修期。
上週6突然收到很多這樣的郵件警告:
Subject:3ware 3DM2 alert -- host: nas
20090919192526 - Controller 0
WARNING - Sector repair completed: port=2, LBA=0x1B6BD900
後來又有內容如下的警告:
20090919192925 - Controller 0
ERROR - Degraded unit: unit=0, port=2
20090919192925 - Controller 0
ERROR - Drive timeout detected: port=2
20090919000129 - Controller 0
WARNING - SMART threshold exceeded: port=2
因爲是週末郵件都是到了晚上纔看到。當然服務器日誌message裏面也出現了很多這樣的錯誤。
這時候我登錄到nas服務器上,輸入tw_cli(有很多人可能喜歡tw_cli 後直接接命令,像tw_cli info c0 u0 等,但我更喜歡先進入tw_cli的命令界面後,再進行別的操作),得到:
[root@nas ~]# tw_cli
//nas> info c0 u0
Unit UnitType Status %Cmpl Port Stripe Size(GB) Blocks
-----------------------------------------------------------------------
u0 RAID-10 DEGRADED* - - 64K 1396.92 2929557504
u0-0 RAID-1 OK - - - - -
u0-0-0 DISK OK - p10 - 232.82 488259584
u0-0-1 DISK OK - p11 - 232.82 488259584
u0-1 RAID-1 OK - - - - -
u0-1-0 DISK OK - p8 - 232.82 488259584
u0-1-1 DISK OK - p9 - 232.82 488259584
u0-2 RAID-1 OK - - - - -
u0-2-0 DISK OK - p6 - 232.82 488259584
u0-2-1 DISK OK - p7 - 232.82 488259584
u0-3 RAID-1 OK - - - - -
u0-3-0 DISK OK - p4 - 232.82 488259584
u0-3-1 DISK OK - p5 - 232.82 488259584
u0-4 RAID-1 DEGRADED - - - - -
u0-4-0 DISK DEGRADED - p2 - 232.82 488259584
u0-4-1 DISK OK - p3 - 232.82 488259584
u0-5 RAID-1 OK - - - - -
u0-5-0 DISK OK - p0 - 232.82 488259584
u0-5-1 DISK OK - p1 - 232.82 488259584
//nas> info c0
Unit UnitType Status %Cmpl Stripe Size(GB) Cache AVerify IgnECC
------------------------------------------------------------------------------
u0 RAID-10 DEGRADED - 64K 1396.92 ON OFF OFF
Port Status Unit Size Blocks Serial
---------------------------------------------------------------
p0 OK u0 232.88 GB 488397168 WD-WCAL76280314
p1 OK u0 232.88 GB 488397168 WD-WCAL76207833
p2 DEVICE-ERROR u0 232.88 GB 488397168 WD-WCAL73516836
p3 OK u0 232.88 GB 488397168 WD-WCAL73587842
p4 OK u0 232.88 GB 488397168 WD-WCAL75670919
p5 OK u0 232.88 GB 488397168 WD-WCAL76197410
p6 OK u0 232.88 GB 488397168 WD-WCAL73498032
p7 OK u0 232.88 GB 488397168 WD-WCAL73588557
p8 OK u0 232.88 GB 488397168 WD-WCAL76291855
p9 OK u0 232.88 GB 488397168 WD-WCAL76254218
p10 OK u0 232.88 GB 488397168 WD-WCAL76251971
p11 OK u0 232.88 GB 488397168 WD-WCAL76280979
查看raid卡序列號
//nas> info c0 serial
/c0 Serial Number = F19302A 4430087
查看raid卡型號
//nas> info c0 model
/c0 Model = 9500S-12
由上面的輸出,顯示u0-4-0 DISK DEGRADED - p2 - 232.82 488259584 這個硬盤已經降級,發現p2 DEVICE-ERROR u0 232.88 GB 488397168 WD-WCAL73516836在Port2 出現device-error ,基本可以判定port2上的硬盤壞了(或者說可能快壞了,最好更換)。
撥長城400技術售後電話,無法接通(不再上班時間段),等到週日再撥,叫我聯繫蘇州地區維修點。蘇州維修點週日不上班,再等到週一。
這時候心裏其實很着急的,因爲這個主存儲器上放了公司很多重要的東西,而且硬盤被頻繁讀寫了這麼多年,如果損壞影響會比較大,不過唯一比較安慰的就是從周5到周6晚上我已經完成了重要數據的備份。使用rsync同步1.1T共8053566個左右文件,耗時共39.5小時。
好不容易捱到週一,打蘇州維修告訴了他們具體情況比如(機器型號,硬盤大小,raid卡型號3ware 9500S-12),因爲對長城的服務器不熟,因爲我們服務器不方便關機重啓,然後諮詢了幾個問題
1. 我們這個服務器是否支持熱插拔
2. 是否支持raid卡的raid10自動重建
3. 如果我自己更換一個320G 的硬盤是否可以
4. 如果不支持我怎麼自己來rebuild
他們說需要查詢總部,然後沒消息了,打過幾次電話過去給了些沒用的信息,打長城總部技術支持也這樣,還聯繫過南京維修點。共打了估計10次電話吧,總之都沒有人回答我這幾個基本問題。這次對長城服務器的售後維護這塊超級不滿意。到我記錄爲止(現在已經周3早上了,還沒有給我明確答覆)。我估計是因爲可能長城不主攻服務器市場,裏面的技術工程師都是桌面機的。而且他們和客戶聯繫的好像都是普通工程師,問個什麼問題都說要和後臺工程師確認,而且效率超級慢,爲什麼不能讓“厲害”的後臺工程師直接和客戶聯繫呢? 最後看來是不能指望長城的售後了,只能自己到3ware的網站去翻資料,熟悉了下9500s-12卡,但是沒有明確看到autorebuild 功能。
因爲同步過一次數據,心裏稍微放心點,心想自己弄吧。如果真壞了,大不了就用我備份服務器上的數據。根據以往換別的服務器的經驗,週一晚上定了塊320G 的西數企業硬盤(目前市場上很難買到250G 的西數企業硬盤了。)周2拿到了硬盤,然後再次同步了下最重要的cvs數據。
到了晚上,我走進機房,再次確認了下是port2口,撥下硬盤然後用tw_cli info c0 u0 查看信息沒任何變化。
更換托架新硬盤插入,輸出信息還是沒有任何變化。這個卡不支持自動rebuild ? 只能手動了rebuild了。
通過網上的資料,輸入:
我這裏輸入的是p0,當時由於按錯了本來應該輸入p2的,哈哈,還好RAID10,移除一個沒有問題。
錯誤移除了p0,那就先對p0重建吧。
過了會查看狀態:
可以看出p0上的硬盤已經rebuild完成了40%。 差不多1個半小時,P0上的硬盤全部完成。
按照同樣的方法對p2硬盤rebuild.
maint remove c0 p2
maint rescan c0
maint rebuild c0 u0 p2
再等了差不多1個半小時全部完成。
可以看出p2上的硬盤是WD-WCAT和別的硬盤WD-WCAL不一樣的,這個是我新換上的320G 的硬盤。到此raid10修復全部完成。
其實,最重要就是膽大(我主要是有備份所有心裏不怎麼擔心),心細(當然不能像我這樣把p2,打成p0哦,如果你是raid5,那就慘了。)
這2天的擔心終於可以輕鬆下了,以後再出現這樣的硬盤問題就能很快更換上。