C++中的 extern "C"

比如說你用C 開發了一個DLL 庫,爲了能夠讓C++語言也能夠調用你的DLL 輸出(Export) 的函數,你需要用extern "C" 來強制編譯器不要修改你的函數名。

通常,在C 語言的頭文件中經常可以看到類似下面這種形式的代碼:

C代碼  收藏代碼
  1. #ifdef __cplusplus  
  2. extern "C" {  
  3. #endif  
  4.   
  5. /**** some declaration or so *****/  
  6.   
  7. #ifdef __cplusplus  
  8. }  
  9. #endif  
 

那麼,這種寫法有什麼用呢?實際上,這是爲了讓CPP能夠與C接口互通而採用的一種語法形式。之所以採用這種方式,是因爲兩種語言之間的一些差異所導致的。由於CPP支持多態性,也就是具有相同函數名的函數可以完成不同的功能,CPP通常是通過參數區分具體調用的是哪一個函數。在編譯的時候,CPP編譯器會將參數類型和函數名連接在一起,於是在程序編譯成爲目標文件以後,CPP編譯器可以直接根據目標文件中的符號名將多個目標文件連接成一個目標文件或者可執行文件。但是在C語言中,由於完全沒有多態性的概念,C編譯器在編譯時除了會在函數名前面添加一個下劃線之外,什麼也不會做(至少很多編譯器都是這樣乾的)。由於這種的原因,當採用CPP與C混合編程的時候,就可能會出問題。假設在某一個頭文件中定義了這樣一個函數:

int foo(int a, int b);

而這個函數的實現位於一個.c文件中,同時,在.cpp文件中調用了這個函數。那麼,當CPP編譯器編譯這個函數的時候,就有可能會把這個函數名改成_fooii ,這裏的ii 表示函數的第一參數和第二參數都是整型。而C編譯器卻有可能將這個函數名編譯成_foo。也就是說,在CPP編譯器得到的目標文件中,foo() 函數是由_fooii 符號來引用的,而在C編譯器生成的目標文件中,foo() 函數是由_foo指代的。但連接器工作的時候,它可不管上層採用的是什麼語言,它只認目標文件中的符號。於是,連接器將會發現在.cpp中調用了foo() 函數,但是在其它的目標文件中卻找不到_fooii 這個符號,於是提示連接過程出錯。extern "C" {} 這種語法形式就是用來解決這個問題的。本文將以示例對這個問題進行說明。

首先假設有下面這樣三個文件:

C代碼  收藏代碼
  1. /* file: test_extern_c.h */  
  2.   
  3. #ifndef __TEST_EXTERN_C_H__  
  4. #define __TEST_EXTERN_C_H__  
  5.   
  6. #ifdef __cplusplus  
  7. extern "C" {  
  8. #endif  
  9.   
  10. /* 
  11. * this is a test function, which calculate 
  12. * the multiply of a and b. 
  13. */  
  14.   
  15. extern int ThisIsTest(int a, int b);  
  16.   
  17. #ifdef __cplusplus  
  18. }  
  19. #endif  
  20.   
  21. #endif   
 

在這個頭文件中只定義了一個函數,ThisIsTest() 。這個函數被定義爲一個外部函數,可以被包括到其它程序文件中。假設ThisIsTest() 函數的實現位於test_extern_c.c 文件中:

C代碼  收藏代碼
  1. /* test_extern_c.c */  
  2.   
  3. #include "test_extern_c.h"  
  4.   
  5. int ThisIsTest(int a, int b)  
  6. {  
  7.   return (a + b);  
  8. }   
 

可以看到,ThisIsTest() 函數的實現非常簡單,就是將兩個參數的相加結果返回而已。現在,假設要從CPP 中調用ThisIsTest() 函數:

Cpp代碼  收藏代碼
  1. /* main.cpp */  
  2.   
  3. #include "test_extern_c.h"  
  4.   
  5. #include <stdio.h>  
  6. #include <stdlib.h>  
  7.   
  8. class FOO {  
  9.   
  10. public:  
  11.   
  12.   int bar(int a, int b)  
  13.   
  14.     {  
  15.   
  16.         printf("result=%i\n", ThisIsTest(a, b));  
  17.   
  18.     }  
  19.   
  20. };  
  21.   
  22. int main(int argc, char **argv)  
  23. {  
  24.   
  25.   int a = atoi(argv[1]);  
  26.   
  27.   int b = atoi(argv[2]);  
  28.   
  29.   FOO *foo = new FOO();  
  30.   
  31.   foo->bar(a, b);  
  32.   
  33.   return(0);  
  34. }   

 

在這個CPP 源文件中,定義了一個簡單的類FOO ,在其成員函數bar() 中調用了ThisIsTest() 函數。下面看一下如果採用gcc編譯test_extern_c.c ,而採用g++ 編譯main.cpp並與test_extern_c.o連接會發生什麼情況:

[cyc@cyc src]$ gcc -c test_extern_c.c

[cyc@cyc src]$ g++ main.cpp test_extern_c.o

[cyc@cyc src]$ ./a.out 4 5          

result=9

可以看到,程序沒有任何異常,完全按照預期的方式工作。那麼,如果將test_extern_c.h 中的extern "C" {} 所在的那幾行註釋掉會怎樣呢?註釋後的test_extern_c.h 文件內容如下:

C代碼  收藏代碼
  1. /* test_extern_c.h */  
  2.   
  3. #ifndef __TEST_EXTERN_C_H__  
  4. #define __TEST_EXTERN_C_H__  
  5.   
  6. //#ifdef   __cplusplus  
  7. //extern "C" {  
  8. //#endif  
  9.   
  10. /* 
  11. /* this is a test function, which calculate 
  12. * the multiply of a and b. 
  13. */  
  14.   
  15. extern int ThisIsTest(int a, int b);  
  16.   
  17. //#ifdef   __cplusplus  
  18. // }  
  19. //#endif  
  20.   
  21. #endif   
 

之外,其它文件不做任何的改變,仍然採用同樣的方式編譯test_extern_c.c 和main.cpp 文件:

[cyc@cyc src]$ gcc -c test_extern_c.c

[cyc@cyc src]$ g++ main.cpp test_extern_c.o

/tmp/cca4EtJJ.o(.gnu.linkonce.t._ZN3FOO3barEii+0x10): In function `FOO::bar(int, int)':

: undefined reference to `ThisIsTest(int, int)'

collect2: ld returned 1 exit status

在編譯main.cpp 的時候就會出錯,連接器ld 提示找不到對函數ThisIsTest() 的引用。


爲了更清楚地說明問題的原因,我們採用下面的方式先把目標文件編譯出來,然後看目標文件中到底都有些什麼符號:

[cyc@cyc src]$ gcc -c test_extern_c.c  

[cyc@cyc src]$ objdump -t test_extern_c.o

test_extern_c.o:   file format elf32-i386

SYMBOL TABLE:

00000000 l   df *ABS* 00000000 test_extern_c.c

00000000 l   d .text 00000000

00000000 l   d .data 00000000

00000000 l   d .bss   00000000

00000000 l   d .comment     00000000

00000000 g   F .text 0000000b ThisIsTest

[cyc@cyc src]$ g++ -c main.cpp      

[cyc@cyc src]$ objdump -t main.o      

main.o:   file format elf32-i386

MYMBOL TABLE:

00000000 l   df *ABS* 00000000 main.cpp

00000000 l   d .text 00000000

00000000 l   d .data 00000000

00000000 l   d .bss   00000000

00000000 l   d .rodata     00000000

00000000 l   d .gnu.linkonce.t._ZN3FOO3barEii 00000000

00000000 l   d .eh_frame     00000000

00000000 l   d .comment     00000000

00000000 g   F .text 00000081 main

00000000       *UND* 00000000 atoi

00000000       *UND* 00000000 _Znwj

00000000       *UND* 00000000 _ZdlPv

00000000 w   F .gnu.linkonce.t._ZN3FOO3barEii 00000027 _ZN3FOO3barEii

00000000       *UND* 00000000 _Z10ThisIsTestii

00000000       *UND* 00000000 printf

00000000       *UND* 00000000 __gxx_personality_v0

可以看到,採用gcc 編譯了test_extern_c.c 之後,在其目標文件test_extern_c.o 中的有一個ThisIsTest 符號,這個符號就是源文件中定義的ThisIsTest() 函數了。而在採用g++ 編譯了main.cpp 之後,在其目標文件main.o中有一個_Z10ThisIsTestii 符號,這個就是經過g++ 編譯器“粉碎”過後的函數名。其最後的兩個字符i 就表示第一參數和第二參數都是整型。而爲什麼要加一個前綴_Z10 我並不清楚,但這裏並不影響我們的討論,因此不去管它。顯然,這就是原因的所在,其原理在本文開頭已作了說明。

那麼,爲什麼採用了extern "C" {} 形式就不會有這個問題呢,我們就來看一下當test_extern_c.h 採用extern "C" {} 的形式時編譯出來的目標文件中又有哪些符號:

[cyc@cyc src]$ gcc -c test_extern_c.c

[cyc@cyc src]$ objdump -t test_extern_c.o

test_extern_c.o:   file format elf32-i386

SYMBOL TABLE:

00000000 l   df *ABS* 00000000 test_extern_c.c

00000000 l   d .text 00000000

00000000 l   d .data 00000000

00000000 l   d .bss   00000000

00000000 l   d .comment     00000000

00000000 g   F .text 0000000b ThisIsTest

[cyc@cyc src]$ g++ -c main.cpp

[cyc@cyc src]$ objdump -t main.o

main.o:   file format elf32-i386

SYMBOL TABLE:

00000000 l   df *ABS* 00000000 main.cpp

00000000 l   d .text 00000000

00000000 l   d .data 00000000

00000000 l   d .bss   00000000

00000000 l   d .rodata     00000000

00000000 l   d .gnu.linkonce.t._ZN3FOO3barEii 00000000

00000000 l   d .eh_frame     00000000

00000000 l   d .comment     00000000

00000000 g   F .text 00000081 main

00000000       *UND* 00000000 atoi

00000000       *UND* 00000000 _Znwj

00000000       *UND* 00000000 _ZdlPv

00000000 w   F .gnu.linkonce.t._ZN3FOO3barEii 00000027 _ZN3FOO3barEii

00000000       *UND* 00000000 ThisIsTest

00000000       *UND* 00000000 printf

00000000       *UND* 00000000 __gxx_personality_v0

注意到這裏和前面有什麼不同沒有,可以看到,在兩個目標文件中,都有一個符號ThisIsTest ,這個符號引用的就是ThisIsTest() 函數了。顯然,此時在兩個目標文件中都存在同樣的ThisIsTest符號,因此認爲它們引用的實際上同一個函數,於是就將兩個目標文件連接在一起,凡是出現程序代碼段中有ThisIsTest 符號的地方都用ThisIsTest() 函數的實際地址代替。另外,還可以看到,僅僅被extern "C" {} 包圍起來的函數採用這樣的目標符號形式,對於main.cpp中的FOO 類的成員函數,在兩種編譯方式後的符號名都是經過“粉碎”了的。

因此,綜合上面的分析,我們可以得出如下結論:採用extern "C" {} 這種形式的聲明,可以使得CPP與C之間的接口具有互通性,不會由於語言內部的機制導致連接目標文件的時候出現錯誤。需要說明的是,上面只是根據我的試驗結果而得出的結論。由於對於CPP 用得不是很多,瞭解得也很少,因此對其內部處理機制並不是很清楚,如果需要深入瞭解這個問題的細節請參考相關資料。

 

注意:

用g++編譯cpp程序時,編譯器會定義宏 __cplusplus ,可根據__cplusplus是否定義決定是否需要extern "C"。

 

總結:

上面講的都是理論,和一些程序,那麼實際使用時有以下幾種情況:

1. 現在要寫一個c語言的模塊,供以後使用(以後的項目可能是c的也可能是c++的),源文件事先編譯好,編譯成.so或.o都無所謂。頭文件中聲明函數時要用條件編譯包含起來,如下:

 

C代碼  收藏代碼
  1. #ifdef __cpluscplus  
  2. extern "C" {  
  3. #endif  
  4.   
  5. //some code  
  6.   
  7. #ifdef __cplusplus  
  8. }  
  9. #endif  

也就是把所有函數聲明放在some code的位置。

2. 如果這個模塊已經存在了,可能是公司裏的前輩寫的,反正就是已經存在了,模塊的.h文件中沒有extern "C"關鍵字,這個模塊又不希望被改動的情況下,可以這樣,在你的c++文件中,包含該模塊的頭文件時加上extern "C", 如下:

Cpp代碼  收藏代碼
  1. extern "C" {  
  2. #include "test_extern_c.h"  
  3. }  

 

       3.上面例子中,如果僅僅使用模塊中的1個函數,而不需要include整個模塊時,可以不include頭文件,而單獨聲明該函數,像這樣:

 

Cpp代碼  收藏代碼
  1. extern "C" {  
  2. int ThisIsTest(intint);  
  3. }  

 

然後就可一使用模塊中的這個ThisIsTest函數了。


原文鏈接:http://songpengfei.iteye.com/blog/1100239

發佈了4 篇原創文章 · 獲贊 0 · 訪問量 2萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章