小型機更換硬盤實例


1,登陸到F85主機,仔細查看錯誤日誌,確認系統鏡像盤hdisk0的故障:
# errpt
IDENTIFIER TIMESTAMP  T C RESOURCE_NAME  DESCRIPTION
2F3E09A4   0801151907 I H hdisk0         REPAIR ACTION
16F35C72   0801083807 P H hdisk0         DISK OPERATION ERROR
16F35C72   0801003807 P H hdisk0         DISK OPERATION ERROR
16F35C72   0731163807 P H hdisk0         DISK OPERATION ERROR
16F35C72   0731083807 P H hdisk0         DISK OPERATION ERROR
B6048838   0731051907 P S SYSPROC        SOFTWARE PROGRAM ABNORMALLY TERMINATED
B6048838   0731043107 P S SYSPROC        SOFTWARE PROGRAM ABNORMALLY TERMINATED
B6048838   0731041907 P S SYSPROC        SOFTWARE PROGRAM ABNORMALLY TERMINATED
16F35C72   0731003807 P H hdisk0         DISK OPERATION ERROR
16F35C72   0730163807 P H hdisk0         DISK OPERATION ERROR
16F35C72   0730083807 P H hdisk0         DISK OPERATION ERROR
16F35C72   0730003807 P H hdisk0         DISK OPERATION ERROR
16F35C72   0729163807 P H hdisk0         DISK OPERATION ERROR
16F35C72   0729083807 P H hdisk0         DISK OPERATION ERROR
16F35C72   0729003807 P H hdisk0         DISK OPERATION ERROR
16F35C72   0728163807 P H hdisk0         DISK OPERATION ERROR
16F35C72   0728083807 P H hdisk0         DISK OPERATION ERROR
16F35C72   0728003807 P H hdisk0         DISK OPERATION ERROR
16F35C72   0727163807 P H hdisk0         DISK OPERATION ERROR
2,打開機器前面板,根據硬盤使用繁忙程度(比較兩塊硬盤指示燈閃爍情況)初步判斷系統鏡像盤位於前面板右下側硬盤籠子中的一號插槽,三號插槽中爲hdisk1;
3,爲進一步確保判斷的準確性,請客戶停掉主機上的應用、關閉數據庫、關閉系統。待所有操作完成,打開硬盤籠子擋板,手工拔去一號插槽中的硬盤,重新啓動到系統,“lsdev –Cc disk”觀察hdisk0和hdisk1的狀態,hdisk0由上次的“available”變爲“defined”,hdisk1沒有變化,則說明位於硬盤籠一號插槽中確爲hdisk0;
4,根據服務手冊,硬盤籠中硬盤可熱插拔。在主機運行的情況下將拔出的硬盤插入一號插槽,合上硬盤籠擋板;
5,通過命令“cfgmgr”重新識別到hdisk0,“lsdev –Cc disk”查看hdisk0狀態轉爲“available”,但在“lsvg –p rootvg”中查看物理盤hdisk0的狀態爲“missing”而非“active”,表示仍然有問題;
6,對hdisk0進行刪除鏡像操作:
  # unmirrorvg rootvg hdisk0(取消hdisk0對rootvg的鏡像)
  # chpv -c hdisk0(清除引導區)
  # reducevg rootvg hdisk0(將hdisk0從卷組中清除)
  # bootlist -m normal hdisk1(重設啓動順序)
7,“lsvg –p rootvg”觀察,確認hdisk0已經脫離rootvg,打開硬盤籠擋板,拔出一號槽中的hdisk0,並將新帶來的36G硬盤插入到一號槽中,合上硬盤籠擋板。“cfgmgr”重新掃描硬件設備,“lsdev –Cc disk”查看新加硬盤在系統中顯示爲“hdisk0”,且狀態爲“available”,表示此硬盤可用;
8,對hdisk0進行鏡像操作:
  # chdev -l hdisk0 -a pv=yes(將新硬盤設爲可用)
  # extendvg rootvg hdisk0(將hdisk0加入rootvg)
  # mirrorvg rootvg(對rootvg進行鏡像,約二十分鐘後鏡像成功)
  # bosboot -a -d /dev/hdisk0(在hdisk0上創建啓動映象)
  # bootlist -m normal hdisk1 hdisk0(重新設置啓動順序)
9,通過命令“lsvg –p rootvg”查看確認hdisk0已經包含在rootvg中並處於“active”狀態,且使用pp數相同(一個pp等於64M):
# lsvg -p rootvg
rootvg:
PV_NAME           PV STATE          TOTAL PPs   FREE PPs    FREE DISTRIBUTION
hdisk1            active            542         148         70..00..00..00..78
hdisk0            active            542         148         76..12..00..00..60

 

 

F85系統鏡像盤更換實錄之一:刪除原有鏡像操作
# cfgmgr
# lsdev -Cc disk
hdisk0 Available 11-09-00-8,0  16 Bit LVD SCSI Disk Drive
hdisk1 Available 11-09-00-10,0 16 Bit LVD SCSI Disk Drive
# lsvg          
rootvg
# lsvg -p rootvg
rootvg:
PV_NAME           PV STATE          TOTAL PPs   FREE PPs    FREE DISTRIBUTION
hdisk1            active            542         148         70..00..00..00..78
hdisk0            missing           542         148         70..00..00..00..78
# unmirrorvg rootvg hdisk0
0516-1246 rmlvcopy: If hd5 is the boot logical volume, please run 'chpv -c '
        as root user to clear the boot record and avoid a potential boot
        off an old boot image that may reside on the disk from which this
        logical volume is moved/removed.
0516-1132 unmirrorvg: Quorum requirement turned on, reboot system for this
        to take effect for rootvg.
0516-1144 unmirrorvg: rootvg successfully unmirrored, user should perform
        bosboot of system to reinitialize boot records.  Then, user must modify
        bootlist to just include:  hdisk1.
# lsvg -p rootvg
rootvg:
PV_NAME           PV STATE          TOTAL PPs   FREE PPs    FREE DISTRIBUTION
hdisk1            active            542         148         70..00..00..00..78
hdisk0            missing           542         542         109..108..108..108..109
# chpv -c hdisk0
# reducevg rootvg hdisk0
# lsvg -p rootvg
rootvg:
PV_NAME           PV STATE          TOTAL PPs   FREE PPs    FREE DISTRIBUTION
hdisk1            active            542         148         70..00..00..00..78
# bootlist -m normal hdisk1

 

 

 

 

故障現象:一塊S85硬盤在errpt中報錯:
[root:/]errpt
IDENTIFIER TIMESTAMP  T C RESOURCE_NAME  DESCRIPTION
49A83216   0111232508 T H hdisk2         DISK OPERATION ERROR
處理過程:
1,errpt -a查看有關hdisk2故障的詳細報告;
2,現場觀察hdisk2狀態燈爲不正常狀態;
3,lspv hdisk2查看hdisk2磁盤的從屬關係:
[root:/]lspv hdisk2
PHYSICAL VOLUME:    hdisk2                   VOLUME GROUP:     rootvg
PV IDENTIFIER:      000d202d530d2928 VG IDENTIFIER     000d202d00004c0000000101ba50e580
PV STATE:           active                                    
STALE PARTITIONS:   0                        ALLOCATABLE:      yes
PP SIZE:            32 megabyte(s)           LOGICAL VOLUMES:  10
TOTAL PPs:          542 (17344 megabytes)    VG DESCRIPTORS:   1
FREE PPs:           194 (6208 megabytes)     HOT SPARE:        no
USED PPs:           348 (11136 megabytes)                     
FREE DISTRIBUTION:  86..00..00..00..108                       
USED DISTRIBUTION:  23..108..108..108..01
經查,hdisk2爲hdisk0(系統啓動盤)的鏡像;
4,插入一塊同樣大小(73GB)硬盤到另外插槽,cfgmgr識別出爲hdisk4;
5,chdev -a pv=yes -l hdisk4讓磁盤變得可用;
6,extendvg rootvg hdisk4將hdisk4加入卷組rootvg當中;
7,migratepv hdisk2 hdisk4將hdisk2中所有信息移動到hdisk4中:
root:/]migratepv hdisk2 hdisk4
0516-1011 migratepv: Logical volume hd5 is labeled as a boot logical volume.
0516-1246 migratepv: If hd5 is the boot logical volume, please run 'chpv -c hdisk2'
        as root user to clear the boot record and avoid a potential boot
        off an old boot image that may reside on the disk from which this
        logical volume is moved/removed.
8,chpv -c hdisk2移除hdisk2中啓動信息;
9,bosboot -ad /dev/hdisk4在hdisk4中加入啓動信息;
10,reducevg rootvg hdisk2將hdisk2從rootvg中去除;
11,rmdev -l hdisk2 -d將hdisk2所有信息從系統中刪除;
12,取出hdisk2;
13,bootlist -m normal hdisk0 hdisk4對原有啓動順序進行更改,將hdisk4取代hdisk2;
14,bootlist -m normal -o查看更改後的啓動順序是否生效:
[root:/]bootlist -m normal -o
hdisk0
hdisk4
整個過程完成。

 


昨天提到一客戶那兒的突發事件,一臺F85突然宕機,嘗試重啓或光盤/鏡像盤啓動都無法成功,最後認爲問題出在電源上。因爲就F85來說,兩個電源是系統能夠正常運行的充要條件。
    今天收到了F85的電源備件,拿到客戶那兒將故障電源替換下來,加電測試,新加電源有反應。合上側翼機蓋、加電、開機,啓動到啓動畫面的時候,液晶面板上顯示“AIX is starting”,經過幾分鐘後,機器正常啓動到登陸界面。
    用用戶提供的用戶名密碼登陸到系統,diag、errpt檢查系統運行狀態、ping、telnet、netstat -in檢查網絡狀態,su到oracle帳戶下,啓動數據庫。至此,F85宕機故障解決。
    除此之外,有一個命令“script”值得提及。一般我們在做巡檢的時候,可以通過打開本機安裝的SecureCRT進行telnet操作,可以通過菜單欄裏“file-log session”或“transfer-receive ASCII”這兩個工具來將巡檢過程保存到指定的記事本里。但像面對金融、安全這樣的客戶的時候,因爲安全性的顧慮,我們被禁止使用自己的電腦對客戶電腦進行telnet操作,而只能在客戶指定的機器上通過dos來telnet到相應客戶機。衆所周知,在dos裏面進行操作是沒法運行像“粘貼、複製”這樣的命令的,這個時候,我們就可以通過“script”命令來將操作保存到客戶機上指定的文件,再通過ftp命令將指定文件進行拷貝,這樣就有了一個詳細的操作記錄文檔。
“script”命令的用法是:
1,telnet到對方機器,如“# telnet 192.168.1.170”;
2,在命令提示符下輸入“script output.txt(可以手工指定此文檔的保存目錄)”,這時會在屏幕上出現以下字樣:
Script command is started on Tue Jun  7 14:15:11 BEIST 2007.
3,進行巡檢;
4,通過敲擊“exit”命令退出“script”模式,這時會出現下列字樣:
Script command is complete on Tue Jun  7 14:22:55 BEIST 2007.
5,“cat”或者“more”output.txt文件,就可以對剛纔的巡檢操作進行查看。

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章