有的時候,在腦海中停頓了很久的“顯而易見”的東西,其實根本上就是錯誤的。就拿下面的問題來看:
{
char ch ;
int i ;
} ;
使用sizeof(T),將得到什麼樣的答案呢?要是以前,想都不用想,在32位機中,int是4個字節,char是1個字節,所以T一共是5個字節。實踐出真知,在VC6中測試了下,答案確實8個字節。哎,反正受傷的總是我,我已經有點麻木了,還是老老實實的接受吧!爲什麼答案和自己想象的有出入呢?這裏將引入內存對齊這個概念。
許多實際的計算機系統對基本類型數據在內存中存放的位置有限制,它們會要求這些數據的首地址的值是某個數k(通常它爲4或8)的倍數,這就是所謂的內存對齊,而這個k則被稱爲該數據類型的對齊模數(alignment modulus)。當一種類型S的對齊模數與另一種類型T的對齊模數的比值是大於1的整數,我們就稱類型S的對齊要求比T強(嚴格),而稱T比S弱(寬鬆)。這種強制的要求一來簡化了處理器與內存之間傳輸系統的設計,二來可以提升讀取數據的速度。比如這麼一種處理器,它每次讀寫內存的時候都從某個8倍數的地址開始,一次讀出或寫入8個字節的數據,假如軟件能保證double類型的數據都從8倍數地址開始,那麼讀或寫一個double類型數據就只需要一次內存操作。否則,我們就可能需要兩次內存操作才能完成這個動作,因爲數據或許恰好橫跨在兩個符合對齊要求的8字節內存塊上。某些處理器在數據不滿足對齊要求的情況下可能會出錯,但是Intel的IA32架構的處理器則不管數據是否對齊都能正確工作。不過Intel奉勸大家,如果想提升性能,那麼所有的程序數據都應該儘可能地對齊。
ANSI
C標準中並沒有規定,相鄰聲明的變量在內存中一定要相鄰。爲了程序的高效性,內存對齊問題由編譯器自行靈活處理,這樣導致相鄰的變量之間可能會有一些填充字節。對於基本數據類型(int
char),他們佔用的內存空間在一個確定硬件系統下有個確定的值,所以,接下來我們只是考慮結構體成員內存分配情況。
Win32平臺下的微軟C編譯器(cl.exe for 80×86)的對齊策略:
1)
結構體變量的首地址能夠被其最寬基本類型成員的大小所整除;
備註:編譯器在給結構體開闢空間時,首先找到結構體中最寬的基本數據類型,然後尋找內存地址能被該基本數據類型所整除的位置,作爲結構體的首地址。將這個最寬的基本數據類型的大小作爲上面介紹的對齊模數。
2) 結構體每個成員相對於結構體首地址的偏移量(offset)都是成員大小的整數倍,如有需要編譯器會在成員之間加上填充字節(internal
adding);
備註:爲結構體的一個成員開闢空間之前,編譯器首先檢查預開闢空間的首地址相對於結構體首地址的偏移是否是本成員的整數倍,若是,則存放本成員,反之,則在本成員和上一個成員之間填充一定的字節,以達到整數倍的要求,也就是將預開闢空間的首地址後移幾個字節。
3) 結構體的總大小爲結構體最寬基本類型成員大小的整數倍,如有需要,編譯器會在最末一個成員之後加上填充字節(trailing
padding)。
備註:結構體總大小是包括填充字節,最後一個成員滿足上面兩條以外,還必須滿足第三條,否則就必須在最後填充幾個字節以達到本條要求。
根據以上準則,在windows下,使用VC編譯器,sizeof(T)的大小爲8個字節。
而在GNU
GCC編譯器中,遵循的準則有些區別,對齊模數不是像上面所述的那樣,根據最寬的基本數據類型來定。在GCC中,對齊模數的準則是:對齊模數最大隻能是4,也就是說,即使結構體中有double類型,對齊模數還是4,所以對齊模數只能是1,2,4。而且在上述的三條中,第2條裏,offset必須是成員大小的整數倍,如果這個成員大小小於等於4則按照上述準則進行,但是如果大於4了,則結構體每個成員相對於結構體首地址的偏移量(offset)只能按照是4的整數倍來進行判斷是否添加填充。
看如下例子:
{
char ch ;
double d ;
} ;
那麼在GCC下,sizeof(T)應該等於12個字節。
如果結構體中含有位域(bit-field),那麼VC中準則又要有所更改:
1)
如果相鄰位域字段的類型相同,且其位寬之和小於類型的sizeof大小,則後面的字段將緊鄰前一個字段存儲,直到不能容納爲止;
2)
如果相鄰位域字段的類型相同,但其位寬之和大於類型的sizeof大小,則後面的字段將從新的存儲單元開始,其偏移量爲其類型大小的整數倍;
3)
如果相鄰的位域字段的類型不同,則各編譯器的具體實現有差異,VC6採取不壓縮方式(不同位域字段存放在不同的位域類型字節中),Dev-C++和GCC都採取壓縮方式;
備註:當兩字段類型不一樣的時候,對於不壓縮方式,例如:
{
char c : 2 ;
int i : 4 ;
} ;
依然要滿足不含位域結構體內存對齊準則第2條,i成員相對於結構體首地址的偏移應該是4的整數倍,所以c成員後要填充3個字節,然後再開闢4個字節的空間作爲int型,其中4位用來存放i,所以上面結構體在VC中所佔空間爲8個字節;而對於採用壓縮方式的編譯器來說,遵循不含位域結構體內存對齊準則第2條,不同的是,如果填充的3個字節能容納後面成員的位,則壓縮到填充字節中,不能容納,則要單獨開闢空間,所以上面結構體N在GCC或者Dev-C++中所佔空間應該是4個字節。
4) 如果位域字段之間穿插着非位域字段,則不進行壓縮;
備註:
結構體
{
char c : 2 ;
double i ;
int c2 : 4 ;
} N3 ;
在GCC下佔據的空間爲16字節,在VC下佔據的空間應該是24個字節。
5)
整個結構體的總大小爲最寬基本類型成員大小的整數倍。
ps: