C++主要使用的是C-Style字符串,而M$在Windows中又增加了很多C-Style字符串的變體。這個一多嘛,就容易亂~
所謂字符串,就是由字符組合而成,所以我們先來將將字符類型。
首先,存在兩種最基本的字符類型:char和wchar_t。char大家都很熟悉了,我就跳過。至於wchar_t,是應用於UNICODE的寬字符,即一個字符2Bytes,16Bits。事實上,Windows中利用
typedef unsigned short wchar_t
定義wchar_t
然後爲了書寫方便(MS我也沒覺得有多大差別),M$又把那兩個基本字符類型重新的給他typedef了一遍,即:
typedef char CHAR
typedef wchar_t WCHAR
爲了使得兼容性更加,M$又定義了TCHAR數據類型:
#ifdef UNIOCDE
typedef WCHAR TCHAR
#else
typedef CHAR TCHAR
#end if
這樣,你不用關心是要使用ANSI字符串還是Unicode,編譯器會自動根據你的OS來選擇。
然後,M$又利用上面的幾種基本數據類型,定義了一些字符串指針類型。
LPSTR和LPCSTR:LPSTR是指向以0結尾的ANSI字符串的指針,後者是const指針
typedef CHAR* LPSTR
typedef const CHAR* LPCSTR
LPWSTR和LPCWSTR:LPWSTR是指向以0結尾的UNICODE字符串的指針,後者是const指針
typedef WCHAR* LPWSTR
typedef const WCHAR* LPCWSTR
同樣,爲了擺脫對ANSI還是UNICODE的選擇麻煩,M$也增加了LPTSTR和LPCTSTR兩個字符串指針類型。他們被如下定義:
typedef TCHAR* LPTSTR
#ifdef UNICODE
typedef LPSTR LPTSTR
#else
typedef LPWSTR LPTSTR
#endif
/////////////////////////////////////
typedef const TCHAR* LPCTSTR
#ifdef UNICODE
typedef LPCSTR LPCTSTR
#else
typedef LPCWSTR LPCTSTR
#endif
ps:你會在某些地方看到存在PSTR/PWSTR/PTSTR等等,與上面的只卻一個L的字符串指針類型。實際上,這個是長指針和短指針問題。LPXX是長指針,PXX是短指針。不過在32Bit的系統上,二者已經沒有區別。
然後說說兩個比較成熟好用的字符串類型:String和CString
String是C++的標準字符串,需要string(不帶.h)頭文件和std名字空間支持。
CString是M$爲MFC設計的字符串,功能更加強大,而且這玩意兒是安全的。需要atlstr.h文件和MFC DLL的支持。不過目前已經有人將此類型從MFC中分離~
爲了增強程序的通用性,還必須注意以下幾點:
1、既然程序裏不能出現char,那表示字符串時,就不能再習慣性的用char*了。應該改爲TCHAR*,或者是PTSTR。後一種是 windows的變量,類似的有:PSTR、PTSTR、LPTSTR、LPSTR、PCTSTR等等等等。這也是讓人一開始接觸會頭大的地方。其實並非如此恐怖,我以PCTSTR爲例做個解釋:P代表指針(和LP是一個東西,LP的本意是Long Pointer,16位windows時代的遺留物。),C代表const,T代表TCHAR,STR代表字符串。所以PCTSTR其實就是const TCHAR* 的意思。而PSTR也就是char* 的意思。所以我們在表示字符串時也不能使用PSTR等不帶T的變量類型名。
2、表示字符串常量時,不能簡單的用雙引號括起來,因爲那代表ascii字符串。同樣也不能在前面加L,因爲那代表unicode。我們的程序要做到的是通用性,即不是ascii也不是unicode。所以我們在字符串前應該加的是TEXT,比如MessageBox(NULL,TEXT("Fypher"),TEXT("FF"),MB_OK)。TEXT還可用於字符。比如TCHAR m=TEXT('A');
3、TCHAR FF[50]。FF能裝多少字符?哈!不要習慣性的sizeof(FF)了,應該_countof(FF)或者sizeof(FF)/sizeof(TCHAR)。因爲我們不確定TCHAR到底是char 還是 wchar_t。
4、該和一堆老朋友說再見了……我們不能再使用以前的字符串處理函數或者字符處理函數了。比如strlen、strcat、strcmp等等等等……因爲這些是ascii專用的,通通改成使用T家族的吧。前綴都換成_tcs。比如_tcslen、_tcscat、_tcscmp等等……順便補充一下wcs前綴是wchar_t使用的。恩,還有大家用得超爽的sprintf,今後就改成_stprintf了吧~呵呵。補充:swprintf是 wchar_t它家的。對了,windows認爲_tcscpy、_tcscat等不安全,所以使用這些函數編譯器會報警。可以改用windows推出的 _tcscpy_s、_tcscat_s等“安全”函數,其實就是多了個參數用來指明緩衝區大小(記得用_countof哦~!^_^)。windows 還推出了形如StringCchCat的一套字符串處理函數,我沒怎麼用過。windows也有一個字符串比較函數CompareString。功能比 _tcscmp強大多了。比如可以設置忽略大小寫等。
5、IsTextUnicode函數可以用過一系列統計學的方法判斷某個字符串是不是unicode字符串。MultiByteToWideChar和WideCharToMultiByte函數可實現Ascii和Unicode字符串的相互轉化。這些的使用場合都不大。因爲我們的程序應該做到“沒有”ascii和unicode。
6、恩,雖然絕大多數情況下應該使用TCHAR,但是記住GetProcAdress這個特殊的函數吧,它的參數只能是char*。因爲在導出函數表裏函數名是用ascii碼寫的……
7、最後一點,記得要#include <tchar.h>哦!呵呵~ 由於windows內核採用的是UNICODE,UNICODE版的程序必然比ASCII版的程序效率高(比如不用在調用函數時在堆裏分配空間把參數轉成 UNICODE,然後再調用UNICODE版的函數),所以我們最好是在程序的開頭加上#define UNICODE和#define _UNICODE,把程序轉換成UNICODE版的。如果程序的字符串處理完全按照上面的通用性要求做了是不會出錯的。
8、注意:str前綴與wcs前綴都是標準C函數,需要有標準C運行庫才能夠使用。而lstr前綴的是window提供的原生函數,不需標準C運行庫。