C++對象內存佈局(轉載)

C++對象內存佈局(轉載)

轉載地址:http://www.cppblog.com/stdyh/archive/2007/01/08/17442.html

寫這個文章完全是因爲想要搞清楚 vc 怎麼佈局每個 c++ 對象,以及怎樣完成指針的轉換的過程.
  先問一個問題,兩個不同類型的指針相互轉換以後,他們在數值上是一樣的嗎?比如:

    int nValue = 10;
    int *pInt = &nValue;
    void *pVoid = pInt;
    char *pChar = (char*)pInt;


  這些指針的值(不是說指針指向的內存的內容)是一樣的嗎? 如果你的回答是 yes,那如果是一個類的繼承體系呢?在繼承類向基類轉換的過程中,指針的數值還是不變化的麼?如果你的回答是"不一定會變化,要看類的體系是怎麼設計的"的話,那恭喜你,不用看下去了.如果你還不確定究竟變還是不變,究竟哪些變,哪些不變,究竟爲什麼要變爲什麼不變的話,接着看下來.

  c++ 標準不規定 c++ 實現的時候的對象的具體的內存佈局,除了在某些方面有小的限制以外,c++ 對象在內存裏面的佈局完全是由編譯器自行決定,這裏我也只是討論 vc++ .net 2003 build 7.1.3091 的實現方式,我並沒有在 vc5 vc6 vc.net 2002 以及其他的 2003 build 上面做過測試,結論也許不適合那些編譯平臺.這些屬於編譯器具體實現,ms 保留有在不通知你我的情況下作出更改的權利.廢話這麼多,馬上開始.

  對於 c 的內建指針的轉換,結果是不用多討論的,我們只是討論 c++ 的對象.從最簡單的開始.

    class CBase
    {
    public:
      int m_nBaseValue;
    };


  這樣的一個類在內存裏放置是非常簡單的,他佔有4個 bytes 的空間,不用多說,我們從他派生一個類出來.

    class CDerive1 : public CBase
    {
    public:
      int m_nDerive1Value;
    };


  CDerive1 的對象在內存裏面是怎麼放的呢? 也很簡單,佔有8個 bytes 的空間,前4個 bytes 屬於 CBase 類,後四個 bytes 屬於自己.一個CDerive1 的指針轉換成一個 CBase 的指針,結果是一樣的.下面我們加上多重繼承看看.

    class CFinal : public CDerive,public CBase // 這裏的 CDerive 是一個和 CBase 差不多的基類
    {
    public:
      int m_nFinalValue;
    }; 


  CFinal 的對象在內存裏面的佈局稍微複雜一點,但是也很容易想象,他佔有 12 個 bytes 的空間,前4個屬於 CDerive,中間4個屬於 CBase,後面4個纔是自己的.那一個 CFinal 的指針轉換成一個 CDerive 指針,數值會變麼? 轉換成一個 CBase 指針呢?又會變化麼?答案是,前一個不變,後一個要變化,道理非常的明顯,CFinal 對象的開頭剛好是一個 CDerive 對象,而 CBase 對象卻在 CFinal 對象的中間,自然是要變化的了,具體怎麼變化呢? 加 4 就 ok(自然要檢查是否是空指針).

    CBase *pBase = pFinal ? (CBase*)((char*)pFinal + sizeof(CDerive)) : 0;// 當你寫下 pBase = pFinal 的時候,其實是這樣的

  這種不帶 virtual 的繼承就這麼簡單,只是加上一個 offset 而已.下面我們看看如果加上 virtual function 的時候是什麼樣子的呢?
還是從簡單類開始.

    class CBase
    {
    public:
      virtual void VirtualBaseFunction(){}
      int m_nBaseValue;
    }; 


  這裏刻意沒有使用 virtual destructor,因爲這個函數稍微有些不同.還是同樣的問題,CBase 類在內存上佔多大的空間?還是 4 bytes 麼? 答案是 no, 在我的編譯器上面是 8 bytes,多出來的 4 bytes 是 __vfptr(watch 窗口看見的名字),他是一個指針,指向了類的 vtable,那什麼是 vtable 呢,他是用來幹什麼的呢? vtable 是用來支援 virtual function 機制的,他其實是一個函數指針數組(並不等同於c/c++語言裏面的指針數組,因爲他們的類型並不一定是一樣的.)他的每一個元素都指向了一個你定義的 virtual function,這樣通過一箇中間層來到達動態連編的效果,這些指針是在程序運行的時候準備妥當的,而不是在編譯的時候準備妥當的,這個就是動態聯編的目的,具體是由誰來設置這些指針的呢?constructor/destructor/copy constructor/assignment operator他們完成的,不用奇怪,編譯器會在你寫的這些函數裏面安插些必要的代碼用來設置 vtable 的值,如果你沒有寫這些函數,編譯器會在適當的時候幫你生成這些函數.明白一點, vtable 是用來支持 virtual function 機制的,而需要 virtual 機制的類基本上都會由一個 __vfptr 指向他自己的 vtable.在調用 virtual function的時候,編譯器這樣完成:

   pBase->VirtualBaseFunction(); => pBase->__vfptr[0]();// 0 是你的virtual function 在 vtable 中的 slot number,編譯器決定

  現在應該很想象 CBase 的大小了吧,那這個 __vfptr 是放到什麼位置的呢? 在 m_nBaseValue 之前還是之後呢? 在我的編譯器上看來,是在之前,爲什麼要放到之前,是因爲在通過 指向類成員函數的指針調用 virtual function 的時候能少些代碼(指彙編代碼),這個原因這裏就不深入討論了,有興趣的同學可以看看 inside the c++ object model 一書.
  接下來,我們加上繼承來看看.

    class CDerive1 : public CBase
    {
    public:
      virtual void VirtualDerive1Function();
    };


  這個時候你也許要說,內存佈局跟沒有 virtual 是一樣的,只不過每個類多了一個 __vfptr 而已,呃...這個是不對的,在我的編譯器上面 兩個類共享同一個 __vfptr, vtable 裏面放有兩個指針,一個是兩個類共享的,一個只屬於 CDerive1 類,調用的時候如何呢?

   pDerive1->VirtualDerive1Function() => pDerive1->__vfptr[1]();
   pDerive1->VirtualBaseFunction() => pDerive1->__vfptr[0]();


  至於指針的相互轉換,數值還是沒有變化的(也正是追求這種效果,所以把 __vfptr 放到類的開頭,因爲調整 this 指針也是要佔有運行時的時間的).

  現在加上多重繼承瞧瞧,代碼我不寫上來了,就跟上面的 CFinal, CDerive, CBase 體系一樣,只是每個類多一個VirtualxxxFunction出來,這個時候的指針調整還是沒有什麼變化,所以我們只是看看 vtable 的情況,你會說 CDerive 和 CFinal 共享一個 __vfptr,而 CBase 有一個自己的 __vfptr,而 CFinal 的 __vfptr 有 2 個slot,這個結論是正確的. 同時你也會說 通過 CFinal 類調用 CBase 的函數是要進行指針調整的,yes you'r right,不僅僅是 this 指針調整(呃,this 指針會成爲 function 的一個參數),還要調整 vtable 的值:

   pFinal->VirtualBaseFunction() => (CBase*)((char*)pFinal + sizeof(CDerive))->__vfptr[0]();

   轉換成 asm 的代碼大約是這樣的:

   mov eax,[pFinal] ; pFinal is a local object,pFinal will be epb - xx
   add eax,8 ; 8 = sizeof(CDerive)
   mov ecx,eax ; ecx is this pointer
   mov edx,[eax] ; edx = vtable address
   call [edx] ; call vtable[0]


  寫到這裏也就明白this指針是怎麼調整的.帶 virtual function 的繼承也不復雜,this指針調整也是很簡單的,下面看最複雜的部分 virtual inheritance.

  我的編譯器支持虛擬繼承的方式和虛函數的方式差不多,都是通過一個 table 完成,只是這個就看不到 vc 賦予的名字了,我們叫他 vbtable 吧,編譯器同樣在類裏面加入一個指向 vbtable 的指針,我們叫他 __vbptr 吧,這個指針指向了 vbtable ,而 vbtable 裏面的每一項對應了一個基類,vbtable 記錄了每個基類的某一個偏移量,通過這個偏移量就能計算出具體類的指針的位置.看個簡單的例子:

   class CBase
   {
   public:
     virtual ~CBase(){}
   }; 

   class CMid1 : public virtual CBase
   {
   public:
     virtual ~CMid1(){}
     int m_nMid1;
   }; 

   class CMid2 : public virtual CBase
   {
   public:
     virtual ~CMid2(){}
     int m_nMid2;
   }; 

   class CFinal : public CMid1,public CMid2
   {
   public:
     virtual ~CFinal(){}
     int m_nFinal;
   }; 

   CFinal final;
   CFinal *pFinal = &final;    // pFinal = 0x0012feb4;
   CBase *pBase = pFinal; // pBase = 0x0012fec8 = pFinal + 0x14;
   CMid1 *pMid1 = pFinal; // pMid1 = 0x0012feb4 = pFinal;
   CMid2 *pMid2 = pFinal; // pMid2 = 0x004210b4 = pFinal;


  結果讓你喫驚嗎? 最奇怪的地方居然是 CMid2 和 CMid1 的地址居然是一樣的,這個是因爲 vc 把 vbtable 放到了 CFinal 類的開頭的原因,而CMid1 和 CMid2 也同樣要使用這個 vbtable, 所以 這個三個的地址也就必須相同了.那 CBase 的地址是怎麼出來的呢? 呃...剛剛我們說了 vbtable 放到了CFinal 的開頭(vc 一定會放在開頭嗎?答案是不一定,這個稍後解釋).在我的機器上面 final 對應內存的第一個 dword 是 0x00426030,查看這個地址,第一個dword 是 0 ,第二個就是 0x14,剛好和 pBase 的偏移相同,這個只是巧合,也許你換個類的繼承體系就完全不同了,但是我只是想說明一點,基類的偏移計算是和 vbtable 的值相關聯的.下面我們就來看看 vc 是怎麼計算這些偏移的.
  vc 在分析我們的代碼的時候,生成了一份類的繼承體系信息,其中有一個叫 thisDisplacement 的_PMD結構:

    struct _PMD // total undocumented
    {
      int mdisp; // i think the meaning is Multiinheritance DISPlacement
      int pdisp; // Pointer to vbtable DISPlacement
      int vdisp; // Vbtable DISPlacement
    }; 


  結構的名字和成員變量的名字確確實實是 vc 的名字(在 watch 窗口輸入 (_PMD*)0 就能看到這個結構的詳細信息),每個字段的含義卻是我自己猜測出來的.mdisp 大概用來表示多重繼承(包括單一繼承)的時候的偏移量,pdisp 表示 vbtable 的偏移量,而 vdisp 表示類在 vbtable 裏面的下標.那麼有了這個結構怎樣才能完成指針的轉換呢?假如我們有一個派生類指針 pFinal,要轉換成一個特定的基礎類,我們首先要知道和這個基類對應的 _PMD 結構的信息(這個信息的獲取,我暫時沒有找到一個非常方便的方法,現在我使用的方法下面會有描述),有了這個信息以後,轉換就方便了.首先找到 vbtabel 的地址 *(pFinal + pdisp),然後找到基類的偏移 *(*(pFinal + pdisp) + vdisp) 這個偏移值是相對vbtable的,所以還要加上 vbtable的偏移,最後加上 mdisp的偏移,如下:

  char *pFinal = xxx; // need a init value
  char *pBase; // we must calc
  pBase = pFinal + mdisp + *(int *)(*(int *)(pFinal + pdisp) + vdisp) + pdisp;


  注意: 當 pdisp < 0 的時候就表示這個類沒有 vbtable 直接使用 pFinal + mdisp 就得到結果了.
  所以這個結構是一個通用的結構,專門用作類型轉換,不管是有無虛繼承都能使用這個結構進行類型轉換.

  通過這個結構,我們也能看到 vc 是怎樣佈局這個 object 的.

  看到這裏,也許你要大呼一口氣,媽媽呀,一個類型轉換要這麼的麻煩嗎?我直接寫 pBase = pFinal 不就可以了嗎? 恭喜你還沒有被我忽悠得暈頭轉向,哈哈.其實你寫下那行語句的時候,編譯器在幫你做這個轉換,大約生成下面的代碼

    mov eax,[pFinal] ;final address
    mov ecx,[eax] ; vbtable address *(int *)(pFinal + pdisp)
    mov edx,eax ; save to edx
    add edx,[ecx + 4] ; ecx + 4 is (*(int *)(pFinal + pdisp) + vdisp)
    mov [pBase],edx ; edx = pFinal + mdisp + *(int *)(*(int *)(pFinal + pdisp) + vdisp) + pdisp;
    ; here mdisp = 0, pdisp = 0, vdisp = 4


  也許你要說了,我要這些東西來幹什麼?要轉換的時候直接轉換就好了,編譯器會幫做,的確,大多數的時候確實是這樣,但是,在某些時候卻並不如此,現在你要實現一個功能,輸入一個指針,輸入一個 _PMD 結構,你要實現一個AdjustPointer 的函數來生成另一個指針.這個時候你也只能這樣完成了,因爲我沒有給你兩個指針的名字,就算給了你字符串形式的名字也沒有用,呃....你也許會說,辦法是有的,的確是有,模板就能實現這種功能,呵..這個我們暫時不討論具體的實現細節.也許你要問了,究竟什麼時候會去實現這種聽都沒有聽過的功能,其實這個函數是真正存在的,只不過不是由你來實現的,而是 ms 的人實現的,你只用寫一個 帶有 c++ 異常的程序,使用 ida 反彙編,然後查找函數,就能找到這個函數了,他用來在異常處理時創建 catch 所需要的 object.至於這個詳細的信息,請期待.我會最快速度寫出關於 vc 是怎樣實現 c++ 異常的文章來.

  最後了,說說那個 _PMD 結構的獲取方式.看的時候不要喫驚,方法比較的麻煩,比如我想知道和 CFinal 類相關的 _PMD 信息,先新建工作,寫下 throw pFinal 這樣的語句,編譯,在這個語句的地方設置斷點,運行,轉到反彙編,進入 __CxxThrowException@8 函數,這個時候不出意外你能看到一個叫 pThrowInfo 的東西(如果看不到,請打開"顯示符號名"選項),在 watch 窗口裏面輸入pThrowInfo,展開他,看到一個pCatchableTypeArray,記錄下他的 nCacthableTypes的值,然後在 watch 裏面輸入
pThrowInfo->pCatchableTypeArray->arrayOfCatchableTypes[0] 到 pThrowInfo->pCatchableTypeArray->arrayOfCatchableTypes[n], n 就是你剛剛記錄的值減1,再展開他們,你就能看到一個 thisDisplacement 的數據,繼續展開就是 mdisp 等等了,很是麻煩吧.哈..你已經猜到了,這個是和異常有關係的.

  後記: 這段時間,我一直在讀些反彙編之後的代碼,也頗有些心得,所以纔有想法寫一些文章,探討 vc 編譯器鮮爲人知(太過狂妄了)的祕密,這個方面的文章也有人寫過,那些文章也給我不少的啓發,我不認爲自己是第一個發現這些祕密的人,但是至少我自己知道的,我是第一個把這些東西寫出來的人.文章裏面作墨多的部分都是自己發現的.就這個文章裏面的內容來說,inside the c++ object model 是有比較詳細的描寫,但是他並不是轉換針對 vc 這個編譯器的實現,而 _PMD 這個結構我也沒有在什麼地方見有人描述過,只是在 windows develop network 的2002年12月的雜誌上看有人提到過這個結構,可惜他卻沒有了解(至少他在他發表文章的時候是如是說的)這個結構的用處(正是因爲這個原因,我纔有寫這個文章以及後續文章的衝動).所以,這個文章也算是我自己的原創吧.這個文件雖然和遊戲製造沒有太大的關係,但是小 T 自視清高,不願意自己的文章被一幫不懂的人評價來評價去的,所以也沒有發到那些著名的 xxx 網站,只發 goldpoint.轉載請註明出處(小 T 對自己的第一個原創文章比較珍惜,比較重視,謝謝).
POSTED ON 2007-01-08 21:17 DYH 閱讀(557) 評論(0)  編輯 收藏 引用 所屬分類: C++ STL
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章