轉載地址:http://blog.chinaunix.net/uid-12380499-id-105609.html
DUMP 文件收集時的幾個注意事項
環境:(產品aix,平臺rs600,機型all,軟件版本v4,v5,等)
問題描述: 客戶的機器有時會出現死機情況,同時液晶板上會出現888的字樣。這是由於系統軟件或硬件的
故障導致機器宕機,並且機器同時蒐集宕機前的相關信息,產生dump文件。客戶需要把dump文件
收集下來,送交IBM進行分析,以找出機器問題所在。但是在蒐集數據時我們需要注意一些事項。
1。系統會自動把dump文件vmcore 文件放到 /var/adm/ras 下 (注dump文件最初放置在paging space
即hd6中,當重新啓動機器後,dump文件會被自動拷出)。但如果/var/adm/ras 目錄下沒有足夠的空間
去放置dump文件,在重啓機器時,系統會要求放置一盤磁帶或其他媒質來放置dump文件。
2。當系統重啓後,我們可以用sysdumpdev 來管理和控制dump文件。如:
root@r6f50 > sysdumpdev -l
primary /dev/hd6
secondary /dev/sysdumpnull
copy directory /var/adm/ras
forced copy flag FALSE
always allow dump TRUE
dump compression OFF
可以看出主dump設備是 /dev/hd6 ,副設備是 /dev/sysdumpnull ,dump文件放置目錄是 /var/adm/ras ;
又如:
root@r6f50 > sysdumpdev -L
Device name: /dev/hd6
Major device number: 10
Minor device number: 2
Size: 1077248 bytes
Date/Time: Thu Feb 13 01:38:17 GMT 2003
Dump status: -3
dump crashed or did not start
Dump copy filename: /var/adm/ras/vmcore.13
可以知道上次系統產生dump文件的時間,大小,文件名稱等,而且客戶也可以根據上述信息估計下次dump 文件
大小以便擴充/var/adm/ras 目錄。
3。如果/var/adm/ras 目錄空間不夠,我們可以在重啓機器時選擇拷貝dump文件的介質,如磁帶機。(當然,我們也
可以選擇不拷貝dump文件,跳過這一步驟)。這時在磁帶機上就有了dump文件以及/unix 文件 。如果客戶要把文件
靠出來,需要用 pax 命令。如:
pax -rf /dev/rmt0.1
pax -rf /dev/rmt0.1 (注: dump_file文件和/unix 文件是順序寫在磁帶機上的,所以要依次讀出)。
或者用 pax -rf /dev/rmt0
tctl -f /dev/rmt0.1 fsf 1
pax -rf /dev/rmt0
4.當然只有dumpwen文件對分析問題還是遠遠不夠的,IBM工程師需要了解更多機器信息,以便更快更準確的分析dump文件。
系統提供一個snap工具來蒐集系統其他信息,如:errpt 錯誤報告,lslpp 系統包安裝情況及版本等等。
客戶可以用snap -a 命令,系統會自動蒐集機器信息並放在/tmp目錄新下生成的一個/ibmsupt 目錄下。如果系統
/var/adm/ras 目錄足夠大,dump 文件 vmcore 已經產生,snap -a 命令會把dump 文件也收集到/inmsupt目錄下,
這樣客戶只要把/tmp/ibmsupt 下的內容交給ibm工程師即可。如果dump文件在啓機時已經拷貝到介質如磁帶機裏,
客戶需要把/tmp/ibmsupt 以及磁帶都交給IBM. 當然客戶也可以用snap -gfkd 命令同時收集dump文件和相關信息
到/tmp/ibmsupt 目錄下並交給IBM.