調試Release發佈版程序的Crash錯誤 (轉)

調試Release發佈版程序的Crash錯誤

http://blog.sina.com.cn/s/blog_48f93b530100fsln.html


在Windows平臺下用C++開發應用程序,最不想見到的情況恐怕就是程序崩潰,而要想解決引起問題的bug,最困難的應該就是調試release版本了。因爲release版本來就少了很多調試信息,更何況一般都是發佈出去由用戶使用,crash的現場很難保留和重現。本文將給出幾個解決方案,完成對release版應用程序crash錯誤的調試。(本文只討論Windows平臺MSVC環境下的調試,對於其他平臺和開發環境沒有關注,請大家自己借鑑和嘗試。)

 

    方案一:崩潰地址 + MAP文件

    這種方案只能對VC7以前的版本開發的程序使用。 

    1、崩潰地址

     所謂崩潰地址就是引起程序崩潰的內存地址,在WinXP下應用程序crash的對話框如下圖:

clip_image001

clip_image002

clip_image003

    上面第2張圖中畫紅線的值爲crash的代碼偏移地址,第3張圖爲即crash絕對地址;一般引起crash的原因多爲內存操作錯誤,我們用這兩個地址和MAP文件就能定位出錯的代碼行。

    2MAP文件

    MAP文件是記錄應用程序信息的文件(文本文件),裏面大概包含了程序的全局符號、源碼模塊名、源碼文件和行號等信息,而這些信息能夠幫助我們定位出錯的代碼行。

    怎樣生成MAP文件呢?以VC6爲例,在 Project Settings -> C/C++ -> Debug info中,選擇 Line Numbers Only ;在 Project Settings -> Link 中,選擇 Generate mapfile項,並在Project Options 裏面輸入 /MAPINFO:LINES 和 /MAPINFO:EXPORTS,重新編譯程序就會生成.map文件。

    以上設置對應的編譯鏈接選項分別分:

    /Zi — 表示生成pdb調試信息;

    /MAP[:filename] — 表示生成map文件名;

    /MAPINFO:EXPORTS — 表示生成的map文件中加入exported functions(生成DLL文件時);

    /MAPINFO:LINES — 表示生成的map文件中加入代碼行信息。

    由於/MAPINFO:LINES選項在VC8以後的版本中不再支持,因此通過MAP文件中的信息和crash地址定位出錯代碼行就比較困難了,所以這種方案只能在VC7及以前的版本中使用。

    一個MAP文件片段示例如下: 

    clip_image004  

    clip_image005

    圖中Rva+Base列的地址爲該行函數對應的函數絕對地址,Address列中冒號後面的地址爲函數相對偏移地址。   

    3、定位crash代碼

    有了上面的介紹,定位crash代碼就很簡單了。用下面的公式來進行定位:

    崩潰行偏移 崩潰地址 崩潰函數絕對地址 函數相對偏移

    我們首先根據崩潰地址(絕對地址),按照找到第2張圖中Rva+Base列的地址找到發生崩潰的函數(即崩潰地址大於該函數行的Rva+Base地址且小於下個函數的地址),然後找到該行對應的函數相對偏移地址,帶入公式中,就得到了崩潰行偏移,該值表示崩潰行的代碼相對於代碼所在函數的偏移量。用該值去與第3張圖中對應函數冒號後面的偏移量去比較,最接近的值前面的那個十進制數即爲代碼所在函數中的行號。

    ok,到此我們已經成功找到了崩潰的代碼行,只不過這種方法還是比較費力,並且限制比較多,我們看看下面的方案。

上篇給出的方案一還要補充幾句。通過“crash地址 + MAP文件”來定位出錯代碼位置雖然需要經過比較複雜的地址計算,但卻是最簡單實現的方式。如果僅僅想通過崩潰地址定位出錯的函數,就更加方便了。我在網上找到一個解析MAP文件的小工具,可以非常清晰的列出每個函數的地址,並且可以將分析表格導出爲Excel文件。工具下載地址:http://e.ys168.com/?tinyfun,工具目錄下VCMapper.exe。

    另外上篇主要參考兩篇文章:

    http://www.vckbase.com/document/viewdoc/?id=908

    http://www.vckbase.com/document/viewdoc/?id=1473

 

    方案二:崩潰地址 + MAP文件 + COD文件

    由於VC8以後的版本都不再支持MAP文件中產生代碼行信息,因此我們尋找另一種定位方式:COD文件。

    1、COD文件

    COD文件是一個包含了彙編碼、二進制機器碼和源代碼對應信息的文件,每一個cpp都對應一個COD文件。通過這個文件,我們可以非常方便地進行定位。

    在VC6中生成COD文件的設置方式爲:Project Settings -> C/C++,在 Category 中選 Listing Files,在 Listing file type 組合框中選 Assembly,Machine code,and source。在VC8中生成COD文件的設置方式爲:Project Properties -> C/C++ -> Output Files -> Assembler Output 項,選擇 Assembly,Machine code,and Source(/Facs)。

   

    2、定位崩潰行

    下面通過舉例進行說明。現在我有一個基於對話框的MFC應用程序CrashTest,在CCrashTestDlg::OnInitDialog函數中寫入導致crash的代碼語句(第99行),源文件如下:

    clip_image006

    根據崩潰地址(0x004012A3)以及MAP文件(定位片段圖片如下),定位crash函數爲OnInitDialog;並且我們可以很容易地計算出崩潰地址相對於崩潰函數的偏移量爲 0x004012A3 - 0x004011E0 = 0xC3。

    clip_image007

    再來看看CrashTestDlg.cod文件,我們根據文件中源碼信息找到OnInitDialog函數信息片段:

    clip_image008

    可以看到圖片中第一行爲OnInitDialog函數彙編代碼的起始行;找到“int * p = NULL;”這一句源碼,其前面的98表示這行代碼在源文件中的行號,下面的000c1表示相對於函數開始位置的偏移量,後面的“33 c0”爲機器碼,“xor eax,eax”爲彙編碼。那麼我們根據前面算出來的偏移量0xC3,找到對應出錯的語句爲99行:“*p = 5;”。

    總結一下定位步驟:

    1) 根據公式 崩潰語句在函數中偏移地址 = 崩潰地址 - 崩潰函數地址 計算出偏移量X;

    2) 根據公式 崩潰語句在COD文件中地址 = 崩潰函數在COD文件中地址 + X 計算出地址Y。其中崩潰函數在COD文件中地址爲COD文件中函數起始括號“{”後面表明的地址,一般情況下爲0x0000;

    3) 根據Y在COD文件中找到對應代碼行。

   

    ok,方案二介紹完了。這種方法最大的好處是沒有VC開發環境版本限制,而且COD文件裏面包含的信息更加豐富,不但可以幫助我們定位crash,還能幫我們分析很多東西。當然,這也導致編譯生成了很多信息文件。

根據前面兩篇博文,我們要定位崩潰行代碼,必須要自己根據相關信息文件進行計算。如果需要處理的量比較大,恐怕會很費力氣。有沒有更簡單快速的辦法呢?

    最直接的想法就是寫一個小工具,根據規則和信息進行自動定位,不過開發起來也是要費一番功夫的。令人開心的是,我們可以找到類似的工具,而且是開源免費的!程序員的世界也許很多時候都是這麼單純而樂於分享!

   

    方案三:崩潰地址 + PDB文件 + CrashFinder

    CrashFinder是一個開源工具,作者是John Robbin,大家可以去他的blog上去找關於CrashFinder的信息。我們這裏以CrashFinder2.5版本爲例介紹,相關文章鏈接爲:http://www.wintellect.com/CS/blogs/jrobbins/archive/2006/04/19/crashfinder-returns.aspx

    1、PDB文件

    PDB(Program Database)文件中包含了exe程序所有的調試相關信息,具體可以查閱MSDN。當編譯選項設置爲/Zi,鏈接選項設置爲/DEBUG,/OPT:REF時,就會生成工程的.pdb文件。具體到VC2005中,就是 Project Propertise -> C/C++ -> General -> Debug Information Format 項設置爲 Program Database(/Zi),Linker -> Debugging -> Generate Debug Info 項設置爲 Yes(/Debug),Linker -> Optimization -> References 項設置爲 Eliminate Unreferenced Data(/OPT:REF)。

    只要設置以上選項,release版本也能生成PDB文件。當然,對應的應用程序也會稍大。

    2、CrashFinder

    CrashFinder能夠運行需要兩個條件:一是系統必須要有dbghelp.dll文件;二是PDB文件必須與exe文件在一個路徑下。對於dbghelp.dll,一般在系統system32路徑下都有,如果沒有下載一個放到這個目錄下就可以了。

    先看一下CrashFinder的界面。

   

clip_image009

    用起來也非常簡單。首先選擇File->New或點擊工具欄新建按鈕,選擇要調試的exe文件打開,會發現exe及所依賴的dll文件信息都已經加載進來。在下半部分的編輯框中輸入崩潰地址(16進制),點右邊的“Find”按鈕,就會在下面顯示崩潰的源文件路徑、名稱以及崩潰所在行號了,如下圖所示。

clip_image010

    用CrashFinder進行crash定位真的非常方便。但是我在使用過程中發現了一個bug,每次啓動程序後,直接新建的話加載進來的exe模塊都顯示叉,提示找不到debug symbols。但是用打開按鈕隨便打開一個文件失敗後,再新建就能成功。猜測可能是直接新建,定位PDB文件時的路徑不對引起的。有源碼,但是懶的看了呵呵,大家感興趣可以試一下。

    好了,方案三就介紹到這裏,後面還有更加強大的方案 : )

前面幾個方案都是直接定位crash的代碼位置,但是在比較大型的程序中,只知道這個信息還是遠遠不夠的,我們希望知道更多關於調用函數順序及變量值等信息,也就是crash時調用堆棧信息。

 

    方案四:SetUnhandledExceptionFilter + StackWalker

    這個方案需要自己動手往工程裏添加代碼了。要實現上面的想法,需要做兩件事情:1、需要在crash時有機會對程序堆棧進行處理;2、對堆棧信息進行收集。

    1、SetUnhandleExceptionFilter函數

    Windows平臺下的C++程序異常通常可分爲兩種:結構化異常(Structured Exception,可以理解爲與操作系統相關的異常)和C++異常。對於結構化異常處理(SEH),可以找到很多資料,在此不細說。對於crash錯誤,一般由未被正常捕獲的異常引起,Windows操作系統提供了一個API函數可以在程序crash之前有機會處理這些異常,就是SetUnhandleExceptionFilter函數。(C++也有一個類似函數set_terminate可以處理未被捕獲的C++異常。)

    SetUnhandleExceptionFilter函數聲明如下:

    LPTOP_LEVEL_EXCEPTION_FILTER WINAPI SetUnhandledExceptionFilter(
      __in          LPTOP_LEVEL_EXCEPTION_FILTER lpTopLevelExceptionFilter
    );

    其中 LPTOP_LEVEL_EXCEPTION_FILTER 定義如下:

    typedef LONG (WINAPI *PTOP_LEVEL_EXCEPTION_FILTER)(
        __in struct _EXCEPTION_POINTERS *ExceptionInfo
    );
    typedef PTOP_LEVEL_EXCEPTION_FILTER LPTOP_LEVEL_EXCEPTION_FILTER;

    簡單來說,SetUnhandleExceptionFilter允許我們設置一個自己的函數作爲全局SEH過濾函數,當程序crash前會調用我們的函數進行處理。我們可以利用的是 _EXCEPTION_POINTERS 結構類型的變量ExceptionInfo,它包含了對異常的描述以及發生異常的線程狀態,過濾函數可以通過返回不同的值來讓系統繼續運行或退出應用程序。

    關於 SetUnhandleExceptionFilter 函數的具體用法和示例請參考MSDN。

 

    2、StackWalker
    現在我們已經有機會可以在crash之前對程序狀態信息進行處理了,只需要生成並保存堆棧信息就大功告成了。Windows的dbghelp.dll庫提供了一個函數可以得到當前堆棧信息:StackWalk64(在Win2K以前版本中爲StackWalk)。該函數聲明如下:

    BOOL WINAPI StackWalk64(
      __in          DWORD MachineType,
      __in          HANDLE hProcess,
      __in          HANDLE hThread,
      __in_out      LPSTACKFRAME64 StackFrame,
      __in_out      PVOID ContextRecord,
      __in          PREAD_PROCESS_MEMORY_ROUTINE64 ReadMemoryRoutine,
      __in          PFUNCTION_TABLE_ACCESS_ROUTINE64 FunctionTableAccessRoutine,
      __in          PGET_MODULE_BASE_ROUTINE64 GetModuleBaseRoutine,
      __in          PTRANSLATE_ADDRESS_ROUTINE64 TranslateAddress
    );
    該函數的具體用法可以參考MSDN。在這裏推薦一個牛人寫好的StackWalker,可以直接拿來用,開源的。StackWalker提供了一個基類,給出了幾個簡單的接口,可以方便地生成堆棧信息,並且支持一系列VC版本,非常好用。我們可以自己寫一個子類,並重載虛函數OnOutput,就可以將堆棧信息輸出爲特定格式了。StackWalker的地址爲:http://www.codeproject.com/KB/threads/StackWalker.aspx

    不過對於Release版本來說,StackWalk64函數獲得的堆棧信息有可能不完整。如果異常是由MFC的模塊拋出,那麼獲得的堆棧可能缺少前面調用模塊信息。另外,StackWalk64需要最新的dbghelp.dll文件支持才能工作;要正確輸出crash的函數名和行號,需要要pdb文件支持。以上不足有可能影響輸出信息的完整性和效果,而對於發佈在外的程序,要帶上pdb文件幾乎不可能,因此這個方案還是有缺憾的,比較適用於本地的release版本調試。

    下一篇我們將介紹一個更加完善的解決方案

當我們把自己的release版本程序發佈出去以後,一般都是在用戶的機器上運行。這種情況下,對於第四種方案,因爲需要pdb文件才能夠正確生成堆棧調用的函數行號及代碼行號,因此方案四隻適用於本地release版的調試,否則只能生成不完整的堆棧信息。對於前三種方案,其實只需要用戶告知崩潰地址,然後在本地查找crash地址就可以了,但是定位crash的過程非常不方便,如果crash的情況比較多,前三種方案都不合適。而且,前三種方案均不能生成堆棧調用信息,對於debug的作用有限。

    下面我們就來看一個更加完善的解決方案。

 

    方案五:SetUnhandledExceptionFilter + Minidump

    SetUnhandleExceptionFilter函數我們已經介紹過了,本方案的思路還是要利用我們自己的異常處理函數,來生成minidump文件。

    1、Minidump概念

    minidump(小存儲器轉儲)可以理解爲一個dump文件,裏面記錄了能夠幫助調試crash的最小有用信息。實際上,如果你在 系統屬性 -> 高級 -> 啓動和故障恢復 -> 設置 -> 寫入調試信息 中選擇“小內存轉儲(64 KB)”的話,當系統意外停止時都會在C:\Windows\Minidump\路徑下生成一個.dmp後綴的文件,這個文件就是minidump文件,只不過這個是內核態的minidump。

   我們要生成的是用戶態的minidump,文件中包含了程序運行的模塊信息、線程信息、堆棧調用信息等。而且爲了符合其mini的特性,dump文件是壓縮過的。

    2、生成minidump文件

    生成minidump文件的API函數是MiniDumpWriteDump,該函數需要dbghelp.lib支持,其原型如下:

    BOOL WINAPI MiniDumpWriteDump(
      __in          HANDLE hProcess,
      __in          DWORD ProcessId,
      __in          HANDLE hFile,
      __in          MINIDUMP_TYPE DumpType,
      __in          PMINIDUMP_EXCEPTION_INFORMATION ExceptionParam,
      __in          PMINIDUMP_USER_STREAM_INFORMATION UserStreamParam,
      __in          PMINIDUMP_CALLBACK_INFORMATION CallbackParam
    );

    在我們的異常處理函數中加入以下代碼:

    HANDLE hFile = ::CreateFile( _T("E:\\dumpfile.dmp"), GENERIC_WRITE, 0, NULL, CREATE_ALWAYS, FILE_ATTRIBUTE_NORMAL, NULL);
     if( hFile != INVALID_HANDLE_VALUE)
     {
         MINIDUMP_EXCEPTION_INFORMATION einfo;
         einfo.ThreadId = ::GetCurrentThreadId();
         einfo.ExceptionPointers = pExInfo;
         einfo.ClientPointers = FALSE;

        ::MiniDumpWriteDump(::GetCurrentProcess(), ::GetCurrentProcessId(), hFile, MiniDumpNormal, &einfo, NULL, NULL);
        ::CloseHandle(hFile);
     }

    其中,pExInfo變量爲異常處理函數PEXCEPTION_POINTERS類型的參數。具體請參考MSDN。

    3、調試minidump

    調試dump文件首先需要pdb文件,因此我們build程序時需要設置 Debug Infomation Format 爲 “Program Database(/Zi)”。其次,我們還要確保所用的dump文件與源代碼、exe、pdb文件版本是一致的,這要求我們必須維護好程序版本信息。

    調試minidump最方便的環境就是VS了,我們只要將.dmp、.exe、.pdb文件放在一個路徑下,保證源代碼文件的路徑與編譯時的路徑一致就可以了,剩下的就是VS幫我們完成。雙擊.dmp文件或者在文件打開工程中選擇“dump files”,加載dump文件,然後按F5運行就能直接恢復crash時的現場了,你可以定位crash的代碼,可以查看調用堆棧,可以查看線程和模塊信息...一切都跟你設置斷點調試一樣,太強大了!看個截圖吧。

clip_image012

    需要注意的是,對於release版的程序來說,很多代碼是經過編譯器優化過的,因此定位的時候可能會有所偏差,大家可以考慮設置選項去掉代碼優化。

    其他可以調試minidump的工具還有WinDbg等,大家可以查閱相關資料。

    本文主要參考了這篇文章:http://vicchina.51.net/research/other/seh/minidumps/intro.htm

    下一篇,我們將給出一個調試release發佈程序的完美解決方案,適合用戶量較大的應用發佈程序的調試。

上一篇我們已經給出了方案,能夠非常方便的通過dump文件對crash錯誤進行調試和定位;從整個流程上看還差最後一步,即怎樣拿到crash時產生的dump文件。如果可以讓用戶把文件發送過來自然不錯,但對於類似免費共享軟件等在互聯網上發佈的程序呢?我們的用戶是不確定的,而且用戶量有可能非常大,即使我們能想辦法聯繫到用戶,總不能挨個去收集crash信息吧。

    我們需要一種方案,能夠提供crash信息彙報功能。

    我們可以架設一臺服務器專門進行信息收集,只要客戶端在crash時正確彙報即可,但是相應的維護成本和開發難度也不可忽視。有沒有更簡單的方法呢?還記得我的博文“爲程序添加自動發送Email功能”嗎?這就是簡單有效的方法!

 

    方案六:minidump + email

    我們只需要在異常處理時,先生成minidump信息文件,再用email方式將文件發送到指定郵箱就行了。剩下的就是我們每天查看郵箱,提取dump文件進行調試了。

    1、Email功能

    首先我們來看一下email發送都需要哪些相關信息。

    a、發送端郵箱帳戶;

    b、接收端郵箱帳戶;

    c、email標題,一般應有軟件名稱及版本信息;

    d、email正文,一般應有簡單的crash信息提示,以區別不同原因造成的crash;

    e、email附件,當然就是我們的dump文件了,還可以加上軟件生成的log文件等。

    當然,對於標題應該儘量多加一些信息區別引起crash的原因,比如將crash的地址信息加到標題中;因爲當每天有成百上千的crash彙報上來,重複的crash佔大多數,把時間都花在區分它們身上有點太浪費。由此看來,前面方案中提到的StackWalker還是有些用處的,我們可以用它來生成一些crash的文字描述信息,寫到標題或正文中去。

    dump文件的大小是否適合作爲郵件的附件呢?實際上minidump產生的文件一般在幾K到幾十K之間,作爲email的附件沒有任何問題。

    關於發送email相關技術細節,已經在“爲程序添加自動發送Email功能”文中介紹了,大家可以參考。其實,對接受郵箱中郵件的處理還是很費時費力的,大家可以考慮寫一些腳本將處理流程自動化,提高效率。

    2、google breakpad

    google breakpad是一個開源的跨平臺crash report系統,光從開源和跨平臺這兩個特點上來看,它就足以稱的上是一個完善而有效的工具了。其實,breakpad在整個crash report層次上給出了一個系統級的解決方案,也就是說它幾乎能適應各種軟件、各種平臺的應用要求。

    breakpad的整體思路跟上面介紹的方案是相似的,只不過最後提交dump文件的方式更加完善。大家有興趣可以去它的官方網址查閱相關資料:http://code.google.com/p/google-breakpad/

 

    ok,關於調試release發佈程序的crash錯誤系列文章就寫完了。這幾篇文章給出的方案由簡單到複雜,由簡陋到完善,對crash調試有了一個比較全面的總結。當然,其中涉及到的概念和技術還很多,需要我們去不斷學習和領悟,也希望大家能夠互相交流。


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章