C++進行字符串URL加密

有的時候,使用C++進行爬蟲操作時,會涉及到一些請求參數的加密,例如對utf8的中文進行加密,我們用js對如下字符串進行加密的結果如下:
加密前字符串:keras-lx-還魂草.z01
URL加密後:keras-lx-%E8%BF%98%E9%AD%82%E8%8D%89.z01
使用網頁在線加密工具和使用js加密效果是一樣的
在這裏插入圖片描述
自己用C++寫的URL加密代碼如下:

// URL編碼.cpp : 定義控制檯應用程序的入口點。
//

#include<iostream>  
#include<stdio.h>  
#include<windows.h>
#include<string>
#include<regex>
using namespace std;

string  UrlUTF8(char * str);
void GB2312ToUTF_8(string& pOut, char *pText, int pLen);
void Gb2312ToUnicode(WCHAR* pOut, char *gbBuffer);
void  UnicodeToUTF_8(char* pOut, WCHAR* pText);
string utf8_uri(string filename);



string  UrlUTF8(char * str)
{
	string tt;
	string dd;
	GB2312ToUTF_8(tt, str, strlen(str));
	int len = tt.length();
	for (int i = 0; i<len; i++)
	{
		if (isalnum((BYTE)tt.at(i))) //判斷字符中是否有數組或者英文
		{
			char tempbuff[2] = { 0 };
			sprintf_s(tempbuff, "%c", (BYTE)tt.at(i));
			dd.append(tempbuff);
		}
		else if (isspace((BYTE)tt.at(i)))
		{
			dd.append("+");
		}
		else
		{
			char tempbuff[4];
			sprintf_s(tempbuff, "%%%X%X", ((BYTE)tt.at(i)) >> 4, ((BYTE)tt.at(i)) % 16);
			dd.append(tempbuff);
		}

	}
	return dd;
}
void GB2312ToUTF_8(string& pOut, char *pText, int pLen)
{
	char buf[4];
	memset(buf, 0, 4);

	pOut.clear();

	int i = 0;
	while (i < pLen)
	{
		//如果是英文直接複製就可以
		if (pText[i] >= 0)
		{
			char asciistr[2] = { 0 };
			asciistr[0] = (pText[i++]);
			pOut.append(asciistr);
		}
		else
		{
			WCHAR pbuffer;
			Gb2312ToUnicode(&pbuffer, pText + i);

			UnicodeToUTF_8(buf, &pbuffer);

			pOut.append(buf);

			i += 2;
		}
	}

	return;
}
void Gb2312ToUnicode(WCHAR* pOut, char *gbBuffer)
{
	::MultiByteToWideChar(CP_ACP, MB_PRECOMPOSED, gbBuffer, 2, pOut, 1);
	return;
}
void UTF_8ToUnicode(WCHAR* pOut, char *pText)
{
	char* uchar = (char *)pOut;

	uchar[1] = ((pText[0] & 0x0F) << 4) + ((pText[1] >> 2) & 0x0F);
	uchar[0] = ((pText[1] & 0x03) << 6) + (pText[2] & 0x3F);

	return;
}
void  UnicodeToUTF_8(char* pOut, WCHAR* pText)
{
	// 注意 WCHAR高低字的順序,低字節在前,高字節在後
	char* pchar = (char *)pText;

	pOut[0] = (0xE0 | ((pchar[1] & 0xF0) >> 4));
	pOut[1] = (0x80 | ((pchar[1] & 0x0F) << 2)) + ((pchar[0] & 0xC0) >> 6);
	pOut[2] = (0x80 | (pchar[0] & 0x3F));

	return;
}

string utf8_uri(string filename)
{
	//這種方法可以轉換帶中文的string爲char*
	const char* p_file = filename.c_str();
	char* pc = new char[1024];//足夠長
	strcpy(pc, p_file);

	string utf8Code = "";
	utf8Code = UrlUTF8(pc);
	pc = NULL;
	delete[] pc;

	//其中某些標點符號也被轉了,這裏需要復原
	//下面用正則表達式將某些不需要轉換的標點符號還原過來
	//例如-和.
	regex r1("%2D");
	utf8Code = regex_replace(utf8Code, r1, "-");
	r1=("%2E");
	utf8Code = regex_replace(utf8Code, r1, ".");
	return utf8Code;
}
int main()
{
	string filename = "keras-lx-還魂草.z01";

	cout << utf8_uri(filename) << endl;

	getchar();
	return 0;
}

**注意在utf8_uri這個函數中,下面的這些代碼是將某些轉過去的字符復原回來,因爲按照js的URL加密方法,某些標點符號是不需要轉換的,例如-和.,因此如果你使用我這個函數時,根據自己的情況加上把某些字符復原的代碼

//其中某些標點符號也被轉了,這裏需要復原
	//下面用正則表達式將某些不需要轉換的標點符號還原過來
	//例如-和.
	regex r1("%2D");
	utf8Code = regex_replace(utf8Code, r1, "-");
	r1=("%2E");
	utf8Code = regex_replace(utf8Code, r1, ".");
	return utf8Code;

**
我們運行這個程序,得到如下運行結果

在這裏插入圖片描述
keras-lx-%E8%BF%98%E9%AD%82%E8%8D%89.z01
這個生成結果與使用js的encodeURIComponent函數對字符串進行URL轉換得到的結果完全一樣。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章