1,登陸到F85主機,仔細查看錯誤日誌,確認系統鏡像盤hdisk0的故障:
# errpt
IDENTIFIER TIMESTAMP T C RESOURCE_NAME DESCRIPTION
2F3E09A4 0801151907 I H hdisk0 REPAIR ACTION
16F35C72 0801083807 P H hdisk0 DISK OPERATION ERROR
16F35C72 0801003807 P H hdisk0 DISK OPERATION ERROR
16F35C72 0731163807 P H hdisk0 DISK OPERATION ERROR
16F35C72 0731083807 P H hdisk0 DISK OPERATION ERROR
B6048838 0731051907 P S SYSPROC SOFTWARE PROGRAM ABNORMALLY TERMINATED
B6048838 0731043107 P S SYSPROC SOFTWARE PROGRAM ABNORMALLY TERMINATED
B6048838 0731041907 P S SYSPROC SOFTWARE PROGRAM ABNORMALLY TERMINATED
16F35C72 0731003807 P H hdisk0 DISK OPERATION ERROR
16F35C72 0730163807 P H hdisk0 DISK OPERATION ERROR
16F35C72 0730083807 P H hdisk0 DISK OPERATION ERROR
16F35C72 0730003807 P H hdisk0 DISK OPERATION ERROR
16F35C72 0729163807 P H hdisk0 DISK OPERATION ERROR
16F35C72 0729083807 P H hdisk0 DISK OPERATION ERROR
16F35C72 0729003807 P H hdisk0 DISK OPERATION ERROR
16F35C72 0728163807 P H hdisk0 DISK OPERATION ERROR
16F35C72 0728083807 P H hdisk0 DISK OPERATION ERROR
16F35C72 0728003807 P H hdisk0 DISK OPERATION ERROR
16F35C72 0727163807 P H hdisk0 DISK OPERATION ERROR
2,打開機器前面板,根據硬盤使用繁忙程度(比較兩塊硬盤指示燈閃爍情況)初步判斷系統鏡像盤位於前面板右下側硬盤籠子中的一號插槽,三號插槽中爲hdisk1;
3,爲進一步確保判斷的準確性,請客戶停掉主機上的應用、關閉數據庫、關閉系統。待所有操作完成,打開硬盤籠子擋板,手工拔去一號插槽中的硬盤,重新啓動到系統,“lsdev –Cc disk”觀察hdisk0和hdisk1的狀態,hdisk0由上次的“available”變爲“defined”,hdisk1沒有變化,則說明位於硬盤籠一號插槽中確爲hdisk0;
4,根據服務手冊,硬盤籠中硬盤可熱插拔。在主機運行的情況下將拔出的硬盤插入一號插槽,合上硬盤籠擋板;
5,通過命令“cfgmgr”重新識別到hdisk0,“lsdev –Cc disk”查看hdisk0狀態轉爲“available”,但在“lsvg –p rootvg”中查看物理盤hdisk0的狀態爲“missing”而非“active”,表示仍然有問題;
6,對hdisk0進行刪除鏡像操作:
# unmirrorvg rootvg hdisk0(取消hdisk0對rootvg的鏡像)
# chpv -c hdisk0(清除引導區)
# reducevg rootvg hdisk0(將hdisk0從卷組中清除)
# bootlist -m normal hdisk1(重設啓動順序)
7,“lsvg –p rootvg”觀察,確認hdisk0已經脫離rootvg,打開硬盤籠擋板,拔出一號槽中的hdisk0,並將新帶來的36G硬盤插入到一號槽中,合上硬盤籠擋板。“cfgmgr”重新掃描硬件設備,“lsdev –Cc disk”查看新加硬盤在系統中顯示爲“hdisk0”,且狀態爲“available”,表示此硬盤可用;
8,對hdisk0進行鏡像操作:
# chdev -l hdisk0 -a pv=yes(將新硬盤設爲可用)
# extendvg rootvg hdisk0(將hdisk0加入rootvg)
# mirrorvg rootvg(對rootvg進行鏡像,約二十分鐘後鏡像成功)
# bosboot -a -d /dev/hdisk0(在hdisk0上創建啓動映象)
# bootlist -m normal hdisk1 hdisk0(重新設置啓動順序)
9,通過命令“lsvg –p rootvg”查看確認hdisk0已經包含在rootvg中並處於“active”狀態,且使用pp數相同(一個pp等於64M):
# lsvg -p rootvg
rootvg:
PV_NAME PV STATE TOTAL PPs FREE PPs FREE DISTRIBUTION
hdisk1 active 542 148 70..00..00..00..78
hdisk0 active 542 148 76..12..00..00..60
F85系統鏡像盤更換實錄之一:刪除原有鏡像操作
# cfgmgr
# lsdev -Cc disk
hdisk0 Available 11-09-00-8,0 16 Bit LVD SCSI Disk Drive
hdisk1 Available 11-09-00-10,0 16 Bit LVD SCSI Disk Drive
# lsvg
rootvg
# lsvg -p rootvg
rootvg:
PV_NAME PV STATE TOTAL PPs FREE PPs FREE DISTRIBUTION
hdisk1 active 542 148 70..00..00..00..78
hdisk0 missing 542 148 70..00..00..00..78
# unmirrorvg rootvg hdisk0
0516-1246 rmlvcopy: If hd5 is the boot logical volume, please run 'chpv -c '
as root user to clear the boot record and avoid a potential boot
off an old boot image that may reside on the disk from which this
logical volume is moved/removed.
0516-1132 unmirrorvg: Quorum requirement turned on, reboot system for this
to take effect for rootvg.
0516-1144 unmirrorvg: rootvg successfully unmirrored, user should perform
bosboot of system to reinitialize boot records. Then, user must modify
bootlist to just include: hdisk1.
# lsvg -p rootvg
rootvg:
PV_NAME PV STATE TOTAL PPs FREE PPs FREE DISTRIBUTION
hdisk1 active 542 148 70..00..00..00..78
hdisk0 missing 542 542 109..108..108..108..109
# chpv -c hdisk0
# reducevg rootvg hdisk0
# lsvg -p rootvg
rootvg:
PV_NAME PV STATE TOTAL PPs FREE PPs FREE DISTRIBUTION
hdisk1 active 542 148 70..00..00..00..78
# bootlist -m normal hdisk1
故障現象:一塊S85硬盤在errpt中報錯:
[root:/]errpt
IDENTIFIER TIMESTAMP T C RESOURCE_NAME DESCRIPTION
49A83216 0111232508 T H hdisk2 DISK OPERATION ERROR
處理過程:
1,errpt -a查看有關hdisk2故障的詳細報告;
2,現場觀察hdisk2狀態燈爲不正常狀態;
3,lspv hdisk2查看hdisk2磁盤的從屬關係:
[root:/]lspv hdisk2
PHYSICAL VOLUME: hdisk2 VOLUME GROUP: rootvg
PV IDENTIFIER: 000d202d530d2928 VG IDENTIFIER 000d202d00004c0000000101ba50e580
PV STATE: active
STALE PARTITIONS: 0 ALLOCATABLE: yes
PP SIZE: 32 megabyte(s) LOGICAL VOLUMES: 10
TOTAL PPs: 542 (17344 megabytes) VG DESCRIPTORS: 1
FREE PPs: 194 (6208 megabytes) HOT SPARE: no
USED PPs: 348 (11136 megabytes)
FREE DISTRIBUTION: 86..00..00..00..108
USED DISTRIBUTION: 23..108..108..108..01
經查,hdisk2爲hdisk0(系統啓動盤)的鏡像;
4,插入一塊同樣大小(73GB)硬盤到另外插槽,cfgmgr識別出爲hdisk4;
5,chdev -a pv=yes -l hdisk4讓磁盤變得可用;
6,extendvg rootvg hdisk4將hdisk4加入卷組rootvg當中;
7,migratepv hdisk2 hdisk4將hdisk2中所有信息移動到hdisk4中:
root:/]migratepv hdisk2 hdisk4
0516-1011 migratepv: Logical volume hd5 is labeled as a boot logical volume.
0516-1246 migratepv: If hd5 is the boot logical volume, please run 'chpv -c hdisk2'
as root user to clear the boot record and avoid a potential boot
off an old boot image that may reside on the disk from which this
logical volume is moved/removed.
8,chpv -c hdisk2移除hdisk2中啓動信息;
9,bosboot -ad /dev/hdisk4在hdisk4中加入啓動信息;
10,reducevg rootvg hdisk2將hdisk2從rootvg中去除;
11,rmdev -l hdisk2 -d將hdisk2所有信息從系統中刪除;
12,取出hdisk2;
13,bootlist -m normal hdisk0 hdisk4對原有啓動順序進行更改,將hdisk4取代hdisk2;
14,bootlist -m normal -o查看更改後的啓動順序是否生效:
[root:/]bootlist -m normal -o
hdisk0
hdisk4
整個過程完成。
昨天提到一客戶那兒的突發事件,一臺F85突然宕機,嘗試重啓或光盤/鏡像盤啓動都無法成功,最後認爲問題出在電源上。因爲就F85來說,兩個電源是系統能夠正常運行的充要條件。
今天收到了F85的電源備件,拿到客戶那兒將故障電源替換下來,加電測試,新加電源有反應。合上側翼機蓋、加電、開機,啓動到啓動畫面的時候,液晶面板上顯示“AIX is starting”,經過幾分鐘後,機器正常啓動到登陸界面。
用用戶提供的用戶名密碼登陸到系統,diag、errpt檢查系統運行狀態、ping、telnet、netstat -in檢查網絡狀態,su到oracle帳戶下,啓動數據庫。至此,F85宕機故障解決。
除此之外,有一個命令“script”值得提及。一般我們在做巡檢的時候,可以通過打開本機安裝的SecureCRT進行telnet操作,可以通過菜單欄裏“file-log session”或“transfer-receive ASCII”這兩個工具來將巡檢過程保存到指定的記事本里。但像面對金融、安全這樣的客戶的時候,因爲安全性的顧慮,我們被禁止使用自己的電腦對客戶電腦進行telnet操作,而只能在客戶指定的機器上通過dos來telnet到相應客戶機。衆所周知,在dos裏面進行操作是沒法運行像“粘貼、複製”這樣的命令的,這個時候,我們就可以通過“script”命令來將操作保存到客戶機上指定的文件,再通過ftp命令將指定文件進行拷貝,這樣就有了一個詳細的操作記錄文檔。
“script”命令的用法是:
1,telnet到對方機器,如“# telnet 192.168.1.170”;
2,在命令提示符下輸入“script output.txt(可以手工指定此文檔的保存目錄)”,這時會在屏幕上出現以下字樣:
Script command is started on Tue Jun 7 14:15:11 BEIST 2007.
3,進行巡檢;
4,通過敲擊“exit”命令退出“script”模式,這時會出現下列字樣:
Script command is complete on Tue Jun 7 14:22:55 BEIST 2007.
5,“cat”或者“more”output.txt文件,就可以對剛纔的巡檢操作進行查看。