MultiByteToWideChar和WideCharToMultiByte用法詳解

原文鏈接

注意:

這兩個函數是由Windows提供的轉換函數,不具有通用性

C語言提供的轉換函數爲mbstowcs()/wcstombs()

一、函數簡單介紹

涉及到的頭文件:

函數所在頭文件:windows.h

#include <windows.h>

wchar_t類型所需頭文件:wchar.h

#include <wchar.h>

( 1 ) MultiByteToWideChar()

函數功能:該函數映射一個字符串到一個寬字符(unicode)的字符串。由該函數映射的字符串沒必要是多字節字符組。

函數原型:

int MultiByteToWideChar(


  UINT CodePage,

  DWORD dwFlags,

  LPCSTR lpMultiByteStr,

  int cchMultiByte,

  LPWSTR lpWideCharStr,

  int cchWideChar

  );

參數:

1> CodePage:指定執行轉換的多字節字符所使用的字符集

這個參數可以爲系統已安裝或有效的任何字符集所給定的值。你也可以指定其爲下面的任意一值:

Value Description
CP_ACP ANSI code page
CP_MACCP Not supported
CP_OEMCP OEM code page
CP_SYMBOL Not supported
CP_THREAD_ACP Not supported
CP_UTF7 UTF-7 code page
CP_UTF8 UTF-8 code page

2> dwFlags:一組位標記,用以指出是否未轉換成預作或寬字符(若組合形式存在),是否使用象形文字替代控制字符,以及如何處理無效字符。你可以指定下面是標記常量的組合,含義如下:

  • MB_PRECOMPOSED:通常使用預作字符——就是說,由一個基本字符和一個非空字符組成的字符只有一個單一的字符值。這是缺省的轉換選擇。不能與MB_COMPOSITE值一起使用。
  • MB_COMPOSITE:通常使用組合字符——就是說,由一個基本字符和一個非空字符組成的字符分別有不同的字符值。不能與MB_PRECOMPOSED值一起使用。
  • MB_ERR_INVALID_CHARS:如果函數遇到無效的輸入字符,它將運行失敗,且GetLastErro返回ERROR_NO_UNICODE_TRANSLATION值。
  • MB_USEGLYPHCHARS:使用象形文字替代控制字符。
    組合字符由一個基礎字符和一個非空字符構成,每一個都有不同的字符值。每個預作字符都有單一的字符值給基礎/非空字符的組成。在字符è中,e就是基礎字符,而重音符標記就是非空字符。
    標記MB_PRECOMPOSED和MB_COMPOSITE是互斥的,而標記MB_USEGLYPHCHARS和MB_ERR_INVALID_CHARS則不管其它標記如何都可以設置。
    一般不使用這些標誌,故取值爲0時。
    3> lpMultiByteStr:指向待轉換的字符串的緩衝區。
    4> cchMultiByte:指定由參數lpMultiByteStr指向的字符串中字節的個數。可以設置爲-1,會自動判斷lpMultiByteStr指定的字符串的長度
    (如果字符串不是以空字符中止,設置爲-1可能失敗,可能成功),此參數設置爲0函數將失敗。
    5> lpWideCharStr:指向接收被轉換字符串的緩衝區。
    6> cchWideChar:指定由參數lpWideCharStr指向的緩衝區的寬字節數。若此值爲0,函數不會執行轉換,而是返回目標緩存lpWideChatStr所需的寬字符數。
    返回值:
    如果函數運行成功,並且cchWideChar不爲0,返回值是由lpWideCharStr指向的緩衝區中寫入的寬字符數;

如果函數運行成功,並且cchMultiByte爲0,返回值是待轉換字符串的緩衝區所需求的寬字符數大小。(此種情況用來獲取轉換所需的wchar_t的個數)

如果函數運行失敗,返回值爲零。

若想獲得更多錯誤信息,請調用GetLastError()函數。它可以返回下面所列錯誤代碼:

  ERROR_INSUFFICIENT_BUFFER; ERROR_INVALID_FLAGS;

  ERROR_INVALID_PARAMETER; ERROR_NO_UNICODE_TRANSLATION。
( 2 ) WideCharToMultiByte()
函數功能:該函數映射一個unicode字符串到一個多字節字符串。

函數原型:

int WideCharToMultiByte(


  UINT CodePage,

  DWORD dwFlags,

  LPCWSTR lpWideCharStr,

  int cchWideChar,

  LPSTR lpMultiByteStr,

  int cchMultiByte,

  LPCSTR lpDefaultChar,

  LPBOOL pfUsedDefaultChar

  );

參數:

與MultiByteToWideChar()函數中的參數類似,但是多了兩個參數:

lpDefaultChar和pfUsedDefaultChar:只有當WideCharToMultiByte函數遇到一個寬字節字符,而該字符在uCodePage參數標識的代碼頁中並沒有它的表示法時,WideCharToMultiByte函數才使用這兩個參數。(通常都取值爲NULL)

1> 如果寬字節字符不能被轉換,該函數便使用lpDefaultChar參數指向的字符。如果該參數是NULL(這是大多數情況下的參數值),那麼該函數使用系統的默認字符。該默認字符通常是個問號。這對於文件名來說是危險的,因爲問號是個通配符。

2> pfUsedDefaultChar參數指向一個布爾變量,如果Unicode字符串中至少有一個字符不能轉換成等價多字節字符,那麼函數就將該變量置爲TRUE。如果所有字符均被成功地轉換,那麼該函數就將該變量置爲FALSE。當函數返回以便檢查寬字節字符串是否被成功地轉換後,可以測試該變量。

返回值:

如果函數運行成功,並且cchMultiByte不爲零,返回值是由 lpMultiByteStr指向的緩衝區中寫入的字節數;

如果函數運行成功,並且cchMultiByte爲零,返回值是接收到待轉換字符串的緩衝區所必需的字節數。(此種情況用來獲取轉換所需Char的個數)

如果函數運行失敗,返回值爲零。

若想獲得更多錯誤信息,請調用GetLastError函數。它可以返回下面所列錯誤代碼:

 ERROR_INSUFFICIENT_BJFFER;ERROR_INVALID_FLAGS;

  ERROR_INVALID_PARAMETER;ERROR_NO_UNICODE_TRANSLATION。

二、使用方法

( 1 ) 將多字節字符串轉爲寬字符串:

1) 調用MultiByteToWideChar()函數,設置cchWideChar參數爲0(用以獲取轉換所需的接收緩衝區大小);

2) 獲取輸入緩存的大小,作爲cchMultiByte的值;(這樣做是爲了節省空間,也可以給cchMultiByte取值-1(字符串需要以空字符結尾,否則會出錯))

3) 分配足夠的內存塊,用於存放轉換後的Unicode字符串;

該內存塊的大小由前面對cchWideChar()函數的返回值來決定;(也可以用別的方法,但該方法更節省內存)

4) 再次調用MultiByteToWideChar()函數,這次將緩存的地址作爲lpWideCharStr,參數來傳遞,並傳遞第一次調用MultiByteToWideChar()函數時的返回值作爲cchWideChar參數的值;

5) 使用轉換後的字符串;

6) 釋放接收緩衝區佔用的內存塊;

示例代碼:

void main()
{
    char sBuf[25]={0};

    strcpy(sBuf, "我最棒");

    //獲取輸入緩存大小
    int sBufSize=strlen(sBuf);
    //獲取輸出緩存大小
    //VC++ 默認使用ANSI,故取第一個參數爲CP_ACP
    DWORD dBufSize=MultiByteToWideChar(CP_ACP, 0, sBuf, sBufSize, NULL, 0);
    printf("需要wchar_t%u個\n", dBufSize);

    wchar_t * dBuf=new wchar_t[dBufSize];
    wmemset(dBuf, 0, dBufSize);

    //進行轉換
    int nRet=MultiByteToWideChar(CP_ACP, 0, sBuf, sBufSize, dBuf, dBufSize);

    if(nRet<=0)
    {
        cout<<"轉換失敗"<<endl;
        DWORD dwErr=GetLastError();
        switch(dwErr)
        {
        case ERROR_INSUFFICIENT_BUFFER:
            printf("ERROR_INSUFFICIENT_BUFFER\n");
            break;
        case ERROR_INVALID_FLAGS:
            printf("ERROR_INVALID_FLAGS\n");
            break;
        case ERROR_INVALID_PARAMETER:
            printf("ERROR_INVALID_PARAMETER\n");
            break;
        case ERROR_NO_UNICODE_TRANSLATION:
            printf("ERROR_NO_UNICODE_TRANSLATION\n");
            break;
        }
    }
    else
    {
        cout<<"轉換成功"<<endl;
        cout<<dBuf; 
    }

    delete(dBuf);
}

注意:兩次調用MultiCharToWideChar()時,形參cchMultiByte的取值需要相同,否則可能會出現接收緩存不足之類的錯誤,從而導致轉換失敗!

( 2 ) 從寬字節轉爲窄字節字符串

步驟與(1)類似,故不贅述

代碼示例如下:

//從寬字符串轉換窄字符串
    wchar_t sBuf[25]={0};
    wcscpy(sBuf, L"我最棒");

    //獲取轉換所需的目標緩存大小
    DWORD dBufSize=WideCharToMultiByte(CP_OEMCP, 0, sBuf, -1, NULL,0,NULL, FALSE);

    //分配目標緩存
    char *dBuf = new char[dBufSize];
    memset(dBuf, 0, dBufSize);

    //轉換
    int nRet=WideCharToMultiByte(CP_OEMCP, 0, sBuf, -1, dBuf, dBufSize, NULL, FALSE);

    if(nRet<=0)
    {
        printf("轉換失敗\n");
    }
    else
    {
        printf("轉換成功\nAfter Convert: %s\n", dBuf);
    }
    delete []dBuf;

三、MultiByteToWideChar()函數亂碼的問題

有的朋友可能已經發現,在標準的WinCE4.2或WinCE5.0 SDK模擬器下,這個函數都無法正常工作,其轉換之後的字符全是亂碼!

及時更改MultiByteToWideChar()參數也依然如此。不過這個不是代碼問題,其結症在於所定製的操作系統.如果我們定製的操作系統默認語言不是中文,也會出現這種情況。

由於標準的SDK默認語言爲英文,所以肯定會出現這個問題。而這個問題的解決,不能在簡單地更改控制面板的”區域選項”的”默認語言”,而是要在系統定製的時候,選擇默認語言爲”中文”。系統定製時選擇默認語言的位置於: Platform -> Setting… -> locale -> default language ,選擇”中文”,然後編譯即可。

Unicode :寬字節字符集

  1. 如何取得一個既包含單字節字符又包含雙字節字符的字符串的字符個數?
    可以調用Microsoft Visual C++的運行期庫包含函數_mbslen來操作多字節(既包括單字節也包括雙字節)字符串。
    調用strlen函數,無法真正瞭解字符串中究竟有多少字符,它只能告訴你到達結尾的0之前有多少個字節。
  2. 如何對DBCS(雙字節字符集)字符串進行操作?
    函數 描述
    PTSTR CharNext ( LPCTSTR ); 返回字符串中下一個字符的地址
    PTSTR CharPrev ( LPCTSTR, LPCTSTR ); 返回字符串中上一個字符的地址
    BOOL IsDBCSLeadByte( BYTE ); 如果該字節是DBCS字符的第一個字節,則返回非0值
  3. 爲什麼要使用Unicode?

    可以很容易地在不同語言之間進行數據交換。
    使你能夠分配支持所有語言的單個二進制.exe文件或DLL文件。
    提高應用程序的運行效率。
    Windows 2000是使用Unicode從頭進行開發的,如果調用任何一個Windows函數並給它傳遞一個ANSI字符串,那麼系統首先要將字符串轉換成Unicode,然後將Unicode字符串傳遞給操作系統。如果希望函數返回ANSI字符串,系統就會首先將Unicode字符串轉換成ANSI字符串,然後將結果返回給你的應用程序。進行這些字符串的轉換需要佔用系統的時間和內存。通過從頭開始用Unicode來開發應用程序,就能夠使你的應用程序更加有效地運行。
    Windows CE 本身就是使用Unicode的一種操作系統,完全不支持ANSI Windows函數
    Windows 98 只支持ANSI,只能爲ANSI開發應用程序。
    Microsoft公司將COM從16位Windows轉換成Win32時,公司決定需要字符串的所有COM接口方法都只能接受Unicode字符串。

  4. 如何編寫Unicode源代碼?
    Microsoft公司爲Unicode設計了WindowsAPI,這樣,可以儘量減少代碼的影響。實際上,可以編寫單個源代碼文件,以便使用或者不使用Unicode來對它進行編譯。只需要定義兩個宏(UNICODE和_UNICODE),就可以修改然後重新編譯該源文件。
    _UNICODE宏用於C運行期頭文件,而UNICODE宏則用於Windows頭文件。當編譯源代碼模塊時,通常必須同時定義這兩個宏。

  5. Windows定義的Unicode數據類型有哪些?
    數據類型 說明
    WCHAR Unicode字符
    PWSTR 指向Unicode字符串的指針
    PCWSTR 指向一個恆定的Unicode字符串的指針
    對應的ANSI數據類型爲CHAR,LPSTR和LPCSTR。
    ANSI/Unicode通用數據類型爲TCHAR,PTSTR,LPCTSTR。

  6. 如何對Unicode進行操作?
    字符集 特性 實例
    ANSI 操作函數以str開頭 strcpy
    Unicode 操作函數以wcs開頭 wcscpy
    MBCS 操作函數以_mbs開頭 _mbscpy
    ANSI/Unicode 操作函數以_tcs開頭 _tcscpy(C運行期庫)
    ANSI/Unicode 操作函數以lstr開頭 lstrcpy(Windows函數)
    所有新的和未過時的函數在Windows2000中都同時擁有ANSI和Unicode兩個版本。ANSI版本函數結尾以A表示;Unicode版本函數結尾以W表示。Windows會如下定義:

#ifdef UNICODE 
#define CreateWindowEx CreateWindowExW 
#else 
#define CreateWindowEx CreateWindowExA 
#endif // !UNICODE 

7.列表內容
如何表示Unicode字符串常量?
字符集 實例
ANSI “string”
Unicode L“string”
ANSI/Unicode T(“string”)或_TEXT(“string”)if( szError[0] == _TEXT(‘J’) ){ }
7. 爲什麼應當儘量使用操作系統函數?
這將有助於稍稍提高應用程序的運行性能,因爲操作系統字符串函數常常被大型應用程序比如操作系統的外殼進程Explorer.exe所使用。由於這些函數使用得很多,因此,在應用程序運行時,它們可能已經被裝入RAM。
如:StrCat,StrChr,StrCmp和StrCpy等。
8. 如何編寫符合ANSI和Unicode的應用程序?
(1) 將文本串視爲字符數組,而不是chars數組或字節數組。
(2) 將通用數據類型(如TCHAR和PTSTR)用於文本字符和字符串。
(3) 將顯式數據類型(如BYTE和PBYTE)用於字節、字節指針和數據緩存。
(4) 將TEXT宏用於原義字符和字符串。
(5) 執行全局性替換(例如用PTSTR替換PSTR)。
(6) 修改字符串運算問題。例如函數通常希望在字符中傳遞一個緩存的大小,而不是字節。這意味着不應該傳遞sizeof(szBuffer),而應該傳遞(sizeof(szBuffer)/sizeof(TCHAR)。另外,如果需要爲字符串分配一個內存塊,並且擁有該字符串中的字符數目,那麼請記住要按字節來分配內存。這就是說,應該調用malloc(nCharacters *sizeof(TCHAR)),而不是調用malloc(nCharacters)。
9. 列表內容
如何對字符串進行有選擇的比較?
通過調用CompareString來實現。
標誌 含義
NORM_IGNORECASE 忽略字母的大小寫
NORM_IGNOREKANATYPE 不區分平假名與片假名字符
NORM_IGNORENONSPACE 忽略無間隔字符
NORM_IGNORESYMBOLS 忽略符號
NORM_IGNOREWIDTH 不區分單字節字符與作爲雙字節字符的同一個字符
SORT_STRINGSORT 將標點符號作爲普通符號來處理
10. . 如何判斷一個文本文件是ANSI還是Unicode?
判斷如果文本文件的開頭兩個字節是0xFF和0xFE,那麼就是Unicode,否則是ANSI。
11. 如何判斷一段字符串是ANSI還是Unicode?
用IsTextUnicode進行判斷。IsTextUnicode使用一系列統計方法和定性方法,以便猜測緩存的內容。由於這不是一種確切的科學方法,因此 IsTextUnicode有可能返回不正確的結果。
12. 如何在Unicode與ANSI之間轉換字符串?
Windows函數MultiByteToWideChar用於將多字節字符串轉換成寬字符串;函數WideCharToMultiByte將寬字符串轉換成等價的多字節字符串。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章