DUMP 文件收集時的幾個注意事項

轉載地址:http://blog.chinaunix.net/uid-12380499-id-105609.html


DUMP 文件收集時的幾個注意事項

環境:(產品aix,平臺rs600,機型all,軟件版本v4,v5,等)

問題描述: 客戶的機器有時會出現死機情況,同時液晶板上會出現888的字樣。這是由於系統軟件或硬件的
 
故障導致機器宕機,並且機器同時蒐集宕機前的相關信息,產生dump文件。客戶需要把dump文件 
收集下來,送交IBM進行分析,以找出機器問題所在。但是在蒐集數據時我們需要注意一些事項。 
1。系統會自動把dump文件vmcore 文件放到 /var/adm/ras 下 (注dump文件最初放置在paging space 
即hd6中,當重新啓動機器後,dump文件會被自動拷出)。但如果/var/adm/ras 目錄下沒有足夠的空間 
去放置dump文件,在重啓機器時,系統會要求放置一盤磁帶或其他媒質來放置dump文件。 
2。當系統重啓後,我們可以用sysdumpdev 來管理和控制dump文件。如: 
root@r6f50 > sysdumpdev -l 
primary              /dev/hd6 
secondary            /dev/sysdumpnull 
copy directory       /var/adm/ras 
forced copy flag     FALSE 
always allow dump    TRUE 
dump compression     OFF 
可以看出主dump設備是 /dev/hd6 ,副設備是 /dev/sysdumpnull ,dump文件放置目錄是 /var/adm/ras  

又如: 
root@r6f50 > sysdumpdev -L 
Device name:         /dev/hd6 
Major device number: 10 
Minor device number: 2 
Size:                1077248 bytes 
Date/Time:           Thu Feb 13 01:38:17 GMT 2003 
Dump status:         -3 
dump crashed or did not start 
Dump copy filename: /var/adm/ras/vmcore.13 
可以知道上次系統產生dump文件的時間,大小,文件名稱等,而且客戶也可以根據上述信息估計下次dump 文件 
大小以便擴充/var/adm/ras 目錄。 

3。如果/var/adm/ras 目錄空間不夠,我們可以在重啓機器時選擇拷貝dump文件的介質,如磁帶機。(當然,我們也 
可以選擇不拷貝dump文件,跳過這一步驟)。這時在磁帶機上就有了dump文件以及/unix 文件 。如果客戶要把文件 
靠出來,需要用 pax 命令。如: 

pax -rf /dev/rmt0.1
 
pax -rf /dev/rmt0.1  (注: dump_file文件和/unix 文件是順序寫在磁帶機上的,所以要依次讀出)。 

或者用  pax -rf /dev/rmt0   
      tctl -f /dev/rmt0.1 fsf 1 
      pax -rf /dev/rmt0 

4.當然只有dumpwen文件對分析問題還是遠遠不夠的,IBM工程師需要了解更多機器信息,以便更快更準確的分析dump文件。
 
 系統提供一個snap工具來蒐集系統其他信息,如:errpt 錯誤報告,lslpp 系統包安裝情況及版本等等。 

 客戶可以用snap -a  命令,系統會自動蒐集機器信息並放在/tmp目錄新下生成的一個/ibmsupt 目錄下。如果系統 
 /var/adm/ras 目錄足夠大,dump 文件 vmcore 已經產生,snap -a 命令會把dump 文件也收集到/inmsupt目錄下, 
 這樣客戶只要把/tmp/ibmsupt 下的內容交給ibm工程師即可。如果dump文件在啓機時已經拷貝到介質如磁帶機裏, 
 客戶需要把/tmp/ibmsupt 以及磁帶都交給IBM. 當然客戶也可以用snap -gfkd 命令同時收集dump文件和相關信息 
 到/tmp/ibmsupt 目錄下並交給IBM. 

發佈了3 篇原創文章 · 獲贊 6 · 訪問量 11萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章