用strace排除Linux服務器故障

[quote]用strace排除Linux服務器故障  Linuxeden Q Q 羣:165854196歡迎加入
strace是一個有用的小工具 – 大多數Linux系統默認已經安裝 – 可以通過跟蹤系統調用來讓你知道一個程序在後臺所做的事情。Strace是一個基礎的調試工具;但是即便你不是在跟蹤一個問題的時候它也是一個極好的軟件。它能告訴你很多關於一個Linux程序怎樣工作的信息。

一個系統調用就是一個從應用程序到內核的消息。現代計算機系統中的用戶程序都是運行在一個沙箱裏面:它們不允許直接與計算機交互(因此你不能像以前那樣往寄存器裏面塞一些數據來完成某些工作)。取而代之的是,每當程序需要與系統交互的時候,他就發送一個請求(系統調用)到內核。Strace就是用來跟蹤這些消息的。因此請記住,如果你有一會兒看不到任何strace的輸出,這也並不代表你的程序發生了阻塞。很有可能是程序在自己的沙箱裏面做某些事情,而這些事情並不需要與系統的其它部分發生通信。

用法


Strace程序固然能做這些事情,但它總是直接將所有的東西輸出到標準錯誤文件(也就是屏幕)。就像你將看到的那樣,它會產生大量的輸出;因此通常來說你最好用-o選項來設置一個輸出文件:


strace -o outputfile.txt program

有一些編輯器(如vim)能夠對strace的輸出進行語法高亮顯示。這意味着文件的不同部分,以及每一行的不同部分都會用不同的顏色來顯示。這個功能相當有用,我強烈建議你使用一個這樣的編輯器來查看strace的輸出。


命令輸出解釋


試一試strace -o strace.out ls –l,然後用你喜歡的編輯器打開strace.out,並且啓用語法高亮。


在深入探索細節之前,先來看看每一行的基本結構。Strace記錄了程序所發出的每一次系統調用,並且各自顯示在單獨的一行中。系統調用的名字出現在每一行的起始,參數出現在括號裏面,返回值則在等號後面,是一行的終結。命令ls –l的頭幾行輸出基本上是如下這個樣子:


execve("/bin/ls", ["ls", "-l"], [/* 21 vars */]) = 0
brk(0) = 0x619000
mmap(NULL, 4096, PROT_READ|PROT_WRITE, MAP_PRIVATE|MAP_ANONYMOUS, -1, 0) = 0x2b412f2b9000
uname({sys="Linux", node="juliet.example.com", ...}) = 0

第一行顯示的是一個execve的系統調用,其參數如下:
當前可執行程序的位置 (/bin/ls)
一個從命令行傳遞過來的參數數組 (ls與-l)
一個指向21個環境變量的指針,也是傳遞給該程序的。
返回值爲0,表示執行成功。這就是所有系統調用都相同的基本結構。

所有在後臺的內幕

接下來的幾行跟內存管理有關。Brk改變數據段的大小,而mmap用來返回一個進程可用的內存位置。(如需要更多信息,請嘗試man 2 mmap。)


再下面一行是uname系統調用,用來顯示系統的詳細信息。Uname所返回的是一個指針,它指向存儲這些信息的一個數據結構。系統調用經常會返回指針:這是一個內存引用,告訴你到哪裏去尋找這些信息。如果你是一臺計算機,這非常有用,但如果你是一個人就未必了;因此爲了方便起見,每當__strace__看到一個指針的時候,它就自動幫你進行查找,然後返回(一部分)指針指向的內容。這正是上面在uname系統調用那裏所發生的事情。


如果你繼續查看strace的輸出,你就會看到很多access和open的調用。Access查找一個文件(如果沒找到就返回-1和一個錯誤碼),然後檢查當前程序是否有訪問權限。Open試圖打開一個文件,如果成功的話就會將其連接到一個文件句柄(從3開始,因爲0-2被用於STDIN、STDOUT和STDERR)並返回這個句柄。然後,fstat會獲取連接到該句柄的文件的有關信息,句柄通過第一個參數傳遞而來,就像這樣(注意第二個參數是一個指針!):


fstat(3, {st_mode=S_IFREG|0644, st_size=53482, ...}) = 0

在另一個mmap調用以後,文件將會被關閉。在ls的輸出中,你會看到這個序列在庫文件上面重複許多遍。而在那以後,對於每一個列出的文件還有lstat、lgetxattr和getxattr等調用。這都是對每個文件獲取信息用的。最後,每個文件都會按這種方式寫到輸出文件:

stat("/etc/localtime", {st_mode=S_IFREG|0644, st_size=3661, ...}) = 0
write(1, "-rw------- 1 juliet juliet 10"..., 72) = 72

編號爲1和2的文件句柄 (STDOUT和STDERR)將會關閉,於是一切都完成了。


結論


這只是一個關於閱讀strace輸出的非常快速的介紹。要深入理解的話,最好的建議是去查看每個系統調用的手冊頁(man 2 <系統調用名>),並且嘗試着在各種程序中使用strace跟蹤輸出。在各種語言的‘Hello, World’程序上使用strace是一件非常有趣的事情。你還可以檢查某個已經在運行的程序,然後用strace的-p PID選項來實時連接到其中的某一個。祝你在使用strace深入解剖你的程序時其樂無窮!


來源:http://www.linuxplanet.com/linuxplanet/tutorials/7229/1/[/quote]
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章