參數編碼 完全解決方案
參數編碼規範
一.摘要
我們經常要在頁面傳遞中文數據,但是往往被文字編碼所困惑.有時不瞭解到底是瀏覽器編碼問題還是服務器編碼問題.本文分析了互聯網傳遞數據的編碼原理, 並且提出了完善易用的解決方案.
二.原則
避免在get或者post參數時直接傳遞中文字符.中文參數需要經過編碼後再傳遞.服務器端要使用相同的編碼格式進行解碼
三.錯誤觀點
1.很多程序員認爲url中可以傳遞中文.
url中並不能攜帶中文參數.如果我們在瀏覽器中輸入"http://localhost/?a=中文",感覺上我們在url中帶了中文,實際上當按下回車鍵後,瀏覽器自動將其中的"中文"漢字進行編碼後傳遞給服務器.
2.當獲取中文參數產生了亂碼時, 往往首先檢查服務器端程序的編碼格式.
很多人認爲url可以傳遞中文,不知道瀏覽器有自動編碼的行爲, 所以單純的認爲問題出在服務器端.其實即使在服務器端找到了正確的編碼格式,我們也不應該輕易地改變服務器的默認編碼格式.
3.傳遞參數前編碼,使用Request對象獲取參數時解碼
很多的程序員認爲認爲,傳遞參數時我們使用UrlEncode等方式編碼, 在接收時應該使用UrlDecode解碼.這是常見的錯誤請大家一定要注意,使用默認的Request.QueryString和Request.Form時已經自動執行了一次解碼,使用的解碼格式是服務器端設置的默認編碼格式.
四.原因
傳遞中文字符時,自動的編碼解碼格式和瀏覽器與服務器的設置有關.
測試Firefox3和IE6的Get方式發送中文參數, Firefox默認使用UTF-8格式編碼中文參數, 而IE6即使在高級設置中設置了"總是以 UTF-8 發送URL", 仍然自動使用GB2312編碼中文參數.
對於服務器端我們可以自由的控制解碼的格式.但是往往是通過更改服務器配置進行全局的統一設置.比如對於ASP.NET程序.可以在Web.Config中設置服務器段的編碼和解碼格式:
<globalization culture="zh-CN" uiCulture="zh-CN" requestEncoding="UTF-8" responseEncoding="gb2312" />
但是我們沒法控制瀏覽器端行爲.用戶可能使用不同的瀏覽器.
五.解決方案
1.統一默認的編碼格式
(1)設置服務器端的編碼格式爲UTF-8
(2)傳遞參數全部進行編碼,.服務器端(C#)使用Server.UrlEncode方法,客戶端(javascript)使用encodeURIComponent方法.
說明:
客戶端的javascript函數encodeURIComponent只能使用UTF-8編碼格式. 所以需要設置服務器端request和response都爲UTF-8.
缺陷是如果某些合作伙伴必須傳遞其他的編碼格式的參數, 則服務器端或獲取到亂碼.此方案實現簡單,適合大部分場景.
2.通過編碼參數指定編碼格式
爲了解決可能存在的無法統一編碼格式的問題, 我們使用一個參數"encoding"來顯示的指定編碼格式.encoding參數需要在所有的請求中傳遞,無論是get還是post.
(1)對於javascript客戶端編碼而言, 仍然使用encodeURIComponent方法編碼, 此時指定encoding參數的值爲"UTF-8".
(2)對於傳入給服務器端的其他編碼格式, 比如GB2312, 我們不能使用默認的Request.Form或者QueryString方法進行編碼.因爲服務器端的編碼格式可能設置爲了UTF-8.此時使用Request.Form或者QueryString會自動使用服務器端指定的編碼格式進行解碼. 所以需要使用下面的方法自己處理請求,獲取參數:
/// <summary>
/// 根據指定的編碼格式返回請求的參數集合 ziqiu.zhang 2009.1.19
/// </summary>
/// <param name="request">當前請求的request對象</param>
/// <param name="encode">編碼格式字符串</param>
/// <returns>鍵爲參數名,值爲參數值的NameValue集合</returns>
public static NameValueCollection GetRequestParameters(HttpRequest request, string encode)
{
NameValueCollection result = null;
Encoding destEncode = null;
//獲取指定編碼格式的Encoding對象
if (!String.IsNullOrEmpty(encode))
{
try
{
//獲取指定的編碼格式
destEncode = Encoding.GetEncoding(encode);
}
catch
{
//如果獲取指定編碼格式失敗,則設置爲null
destEncode = null;
}
}
//根據不同的HttpMethod方式,獲取請求的參數.如果沒有Encoding對象則使用服務器端默認的編碼.
if (request.HttpMethod == "POST")
{
if (null != destEncode)
{
Stream resStream = request.InputStream;
byte[] filecontent = new byte[resStream.Length];
resStream.Read(filecontent, 0, filecontent.Length);
string postquery = destEncode.GetString(filecontent);
result = HttpUtility.ParseQueryString(postquery, destEncode);
}
else
{
result = request.Form;
}
}
else
{
if (null != destEncode)
{
result = System.Web.HttpUtility.ParseQueryString(request.Url.Query, destEncode);
}
else
{
result = request.QueryString;
}
}
//返回結果
return result;
}
通過上面的方法, 無論是Get請求還是Post請求, 我們都可以使用自己指定的編碼格式獲取參數.如果有人認爲寫這個方法是在自找麻煩,請看"二.錯誤觀點"中的第三條.
此方法返回的是一個NameValueCollection對象,判斷是否有某個參數時不能使用檢查是否存在key值的方法.而是要通key獲取值,然後判斷值是否爲null(和List有些不同):
//獲取參數, 假設paramList是一個NameValueCollection對象
p1= paramList["p1"];
//判斷是否存在此參數,如果不存在則p1爲null
if ( !( String.IsNullOrEmpty(p1) )
{...}
另外本方法如果沒有傳遞Encoding或者傳遞的字符串無法轉換成強類型的Encoding對象, 則使用服務器端默認編碼格式(即直接使用Request對象的QueryString和Form獲取參數).
六.Javascript編碼方法
發送請求的一方叫做客戶端.我們經常需要使用Javascript在客戶端編碼中文參數.下面javascript中和編碼有關的函數:
函數名稱 |
函數說明 |
解釋 |
escape() |
escape() 函數可對字符串進行編碼,這樣就可以在所有的計算機上讀取該字符串。 |
該方法不會對 ASCII 字母和數字進行編碼,也不會對下面這些 ASCII 標點符號進行編碼: - _ . ! ~ * ' ( ) 。其他所有的字符都會被轉義序列替換。
[已過時] 請使用 encodeURI() 或 encodeURIComponent() |
unescape() |
unescape() 函數可對通過 escape() 編碼的字符串進行解碼。 |
該函數的工作原理是這樣的:通過找到形式爲 %xx 和 %uxxxx 的字符序列(x 表示十六進制的數字),用 Unicode 字符 \u00xx 和 \uxxxx 替換這樣的字符序列進行解碼。
[已過時] 請使用 decodeURI() 或 decodeURIComponent() |
encodeURI() |
encodeURI() 函數可把字符串作爲 URI 進行編碼。
|
該方法不會對 ASCII 字母和數字進行編碼,也不會對這些 ASCII 標點符號進行編碼: - _ . ! ~ * ' ( ) 。 該方法的目的是對 URI 進行完整的編碼,因此對以下在 URI 中具有特殊含義的 ASCII 標點符號,encodeURI() 函數是不會進行轉義的:;/?:@&=+$,#
[提示] 如果 URI 的參數中含有不能轉移的字符,則應當使用 encodeURIComponent() 方法分別對各參數進行編碼。 |
decodeURI() |
decodeURI() 函數可對 encodeURI() 函數編碼過的 URI 進行解碼。
|
|
encodeURIComponent() |
encodeURIComponent() 函數可把字符串作爲 URI 組件進行編碼。
|
該方法不會對 ASCII 字母和數字進行編碼,也不會對這些 ASCII 標點符號進行編碼: - _ . ! ~ * ' ( ) 。 其他字符(比如 :;/?:@&=+$,# 這些用於分隔 URI 組件的標點符號),都是由一個或多個十六進制的轉義序列替換的。
[提示] 此方法會編碼URI中的特殊字符 |
decodeURIComponent() |
decodeURIComponent() 函數可對 encodeURIComponent() 函數編碼的 URI 進行解碼。 |
|
escape和unescape在V3版本的標準中已經不在推薦使用.應該用encodeURI和encodeURIComponent方法.對於一個URI(URL也是一中URI),如果我們希望將它作爲完整的網址發送請求, 但是上面帶有中文, 則應該使用encodeURI方法.如果是要編碼參數,則應該使用encodeURIComponent.
下面舉例說明這兩個方法的區別:
document.write(encodeURIComponent("http://www.w3school.com.cn")+ "<br />")
document.write(encodeURI("http://www.w3school.com.cn")+ "<br />")
結果
http%3A%2F%2Fwww.w3school.com.cn
http://www.w3school.com.cn
七.瀏覽器自動編碼
Get請求
對於Get方式發送的請求, 不同的瀏覽器使用不同的編碼方式自動爲中文參數編碼.
比如:Firefox/3.0.5 使用UTF-8, IE6使用GB2312.
Post請求
對於Post方式發送的請求, 表單中的參數值對是通過request body發送給服務器,此時瀏覽器會根據網頁的ContentType("text/html; charset=GBK")中指定的編碼進行對錶單中的數據進行編碼,然後發給服務器。在HTML代碼的Head中添加:
<meta http-equiv="Content-Type" content="text/html;charset=gb2312" />
Firefox/3.0.5 會使用根據charset中設置的編碼格式編碼post的中文參數.
IE6不起作用.
實驗表明使用客戶端瀏覽器默認編碼格式具有不確定性.所以傳遞中文時我們要手工編碼參數.
八.總結
寫這篇文章的目的是提醒Web程序員要注意瀏覽器的自動編碼, 在一個項目中按照本文提供的解決方案將避免中文參數傳遞帶來的亂碼問題.在看了YJingLee's Blog的"CnBlogs博文排版技巧"後我對本文重新進行了整理.
http://www.cnblogs.com/zhangziqiu/archive/2009/01/20/Encoding.html