MD5原理概述及實現
1. 什麼是MD5算法
MD5訊息摘要演算法(英語:MD5 Message-Digest Algorithm),一種被廣泛使用的密碼雜湊函數,可以產生出一個128位元(16位元組)的散列值(hash value),用於確保信息傳輸完整一致。
2. MD5功能
輸入任意長度的信息,經過處理,輸出爲128位的信息(數字指紋);
不同的輸入得到的不同的結果(唯一性);
3. MD5 算法底層原理
簡單概括起來,MD5 算法的過程分爲四步:處理原文,設置初始值,循環加工,拼接結果。
- 第一步:處理原文
首先,我們計算出原文長度(bit)對 512 求餘的結果,如果不等於 448,就需要填充原文使得原文對 512 求餘的結果等於 448。填充的方法是第一位填充 1,其餘位填充 0。填充完後,信息的長度就是 512N+448。
之後,用剩餘的位置(512-448=64 位)記錄原文的真正長度,把長度的二進制值補在最後。這樣處理後的信息長度就是 512(N+1)。
- 第二步:設置初始值
MD5 的哈希結果長度爲 128 位,按每 32 位分成一組共 4 組。這 4 組結果是由 4 個初始值 A、B、C、D 經過不斷演變得到。MD5 的官方實現中,A、B、C、D 的(固定的)初始值如下(16 進制):
A=0x01234567
B=0x89ABCDEF
C=0xFEDCBA98
D=0x76543210
- 第三步:循環加工
這一步是最複雜的一步,我們看看下面這張圖,此圖代表了單次 A,B,C,D 值演變的流程。
圖中,A,B,C,D 就是哈希值的四個分組。每一次循環都會讓舊的 ABCD 產生新的 ABCD。一共進行多少次循環呢?由處理後的原文長度決定。
假設處理後的原文長度是 M
主循環次數 = M / 512
每個主循環中包含 512 / 32 * 4 = 64 次 子循環。
上面這張圖所表達的就是單次子循環的流程。
下面對圖中其他元素一一解釋:
1.綠色 F
圖中的綠色 F,代表非線性函數。官方 MD5 所用到的函數有四種:
F(X, Y, Z) =(X&Y) | ((~X) & Z)
G(X, Y, Z) =(X&Z) | (Y & (~Z))
H(X, Y, Z) =XYZ
I(X, Y, Z)=Y^(X|(~Z))
在主循環下面 64 次子循環中,F、G、H、I 交替使用,第一個 16 次使用 F,第二個 16 次使用 G,第三個 16 次使用 H,第四個 16 次使用 I。
2.紅色“田”字
很簡單,紅色的田字代表相加的意思。
3.Mi
Mi 是第一步處理後的原文。在第一步中,處理後原文的長度是 512 的整數倍。把原文的每 512 位再分成 16 等份,命名爲 M0~M15,每一等份長度 32。在 64 次子循環中,每 16 次循環,都會交替用到 M1~M16 之一。
4.Ki
一個常量,在 64 次子循環中,每一次用到的常量都是不同的。
5.黃色的<<<S
左移 S 位,S 的值也是常量。
“流水線”的最後,讓計算的結果和 B 相加,取代原先的 B。新 ABCD 的產生可以歸納爲:
新 A = 原 d
新 B = b+((a+F(b,c,d)+Mj+Ki)<<<s)
新 C = 原 b
新 D = 原 c
總結一下主循環中的 64 次子循環,可以歸納爲下面的四部分:
第一輪:
FF(a,b,c,d,M0,7,0xd76aa478) s[0]=7, K[0] = 0xd76aa478
FF(a,b,c,d,M1,12,0xe8c7b756) s[1]=12, K[1] = 0xe8c7b756
FF(a,b,c,d,M2,17,0x242070db)
FF(a,b,c,d,M3,22,0xc1bdceee)
FF(a,b,c,d,M4,7,0xf57c0faf)
FF(a,b,c,d,M5,12,0x4787c62a)
FF(a,b,c,d,M6,17,0xa8304613)
FF(a,b,c,d,M7,22,0xfd469501)
FF(a,b,c,d,M8,7,0x698098d8)
FF(a,b,c,d,M9,12,0x8b44f7af)
FF(a,b,c,d,M10,17,0xffff5bb1)
FF(a,b,c,d,M11,22,0x895cd7be)
FF(a,b,c,d,M12,7,0x6b901122)
FF(a,b,c,d,M13,12,0xfd987193)
FF(a,b,c,d,M14,17, 0xa679438e)
FF(a,b,c,d,M15,22,0x49b40821)
第二輪:
GG(a,b,c,d,M1,5,0xf61e2562)
GG(a,b,c,d,M6,9,0xc040b340)
GG(a,b,c,d,M11,14,0x265e5a51)
GG(a,b,c,d,M0,20,0xe9b6c7aa)
GG(a,b,c,d,M5,5,0xd62f105d)
GG(a,b,c,d,M10,9,0×02441453)
GG(a,b,c,d,M15,14,0xd8a1e681)
GG(a,b,c,d,M4,20,0xe7d3fbc8)
GG(a,b,c,d,M9,5,0x21e1cde6)
GG(a,b,c,d,M14,9,0xc33707d6)
GG(a,b,c,d,M3,14,0xf4d50d87)
GG(a,b,c,d,M8,20,0x455a14ed)
GG(a,b,c,d,M13,5,0xa9e3e905)
GG(a,b,c,d,M2,9,0xfcefa3f8)
GG(a,b,c,d,M7,14,0x676f02d9)
GG(a,b,c,d,M12,20,0x8d2a4c8a)
第三輪:
HH(a,b,c,d,M5,4,0xfffa3942)
HH(a,b,c,d,M8,11,0x8771f681)
HH(a,b,c,d,M11,16,0x6d9d6122)
HH(a,b,c,d,M14,23,0xfde5380c)
HH(a,b,c,d,M1,4,0xa4beea44)
HH(a,b,c,d,M4,11,0x4bdecfa9)
HH(a,b,c,d,M7,16,0xf6bb4b60)
HH(a,b,c,d,M10,23,0xbebfbc70)
HH(a,b,c,d,M13,4,0x289b7ec6)
HH(a,b,c,d,M0,11,0xeaa127fa)
HH(a,b,c,d,M3,16,0xd4ef3085)
HH(a,b,c,d,M6,23,0x04881d05)
HH(a,b,c,d,M9,4,0xd9d4d039)
HH(a,b,c,d,M12,11,0xe6db99e5)
HH(a,b,c,d,M15,16,0x1fa27cf8)
HH(a,b,c,d,M2,23,0xc4ac5665)
第四輪:
Ⅱ(a,b,c,d,M0,6,0xf4292244)
Ⅱ(a,b,c,d,M7,10,0x432aff97)
Ⅱ(a,b,c,d,M14,15,0xab9423a7)
Ⅱ(a,b,c,d,M5,21,0xfc93a039)
Ⅱ(a,b,c,d,M12,6,0x655b59c3)
Ⅱ(a,b,c,d,M3,10,0x8f0ccc92)
Ⅱ(a,b,c,d,M10,15,0xffeff47d)
Ⅱ(a,b,c,d,M1,21,0x85845dd1)
Ⅱ(a,b,c,d,M8,6,0x6fa87e4f)
Ⅱ(a,b,c,d,M15,10,0xfe2ce6e0)
Ⅱ(a,b,c,d,M6,15,0xa3014314)
Ⅱ(a,b,c,d,M13,21,0x4e0811a1)
Ⅱ(a,b,c,d,M4,6,0xf7537e82)
Ⅱ(a,b,c,d,M11,10,0xbd3af235)
Ⅱ(a,b,c,d,M2,15,0x2ad7d2bb)
Ⅱ(a,b,c,d,M9,21,0xeb86d391)
- 第四步:拼接結果
這一步就很簡單了,把循環加工最終產生的 A,B,C,D 四個值拼接在一起,轉換成字符串即可。
MD5的生成過程很複雜,這樣保證了MD5哈希值的均勻分佈,以及加密的安全性,不過這個也只屬於強碰撞性,弱碰撞性已被破解
4. MD5生成摘要代碼
#include <iostream>
#include <openssl/md5.h>
using namespace std;
int main(int argc, char* argv[])
{
cout << "Test Hash!" << endl;
unsigned char data[] = "測試md5數據";
unsigned char out[1024] = { 0 };
int len = sizeof(data);
MD5_CTX c;
MD5_Init(&c);
MD5_Update(&c, data, len);
MD5_Final(out, &c);
for (int i = 0; i < 16; i++)
cout << hex << (int)out[i];
cout << endl;
data[1] = 9;
MD5(data, len, out);
for (int i = 0; i < 16; i++)
cout << hex << (int)out[i];
cout << endl;
getchar();
return 0;
}
5. 文件列表hashlist實現
#include <iostream>
#include <openssl/md5.h>
#include <fstream>
#include <thread>
using namespace std;
string GetFileListHash(string filepath)
{
string hash;
//以二進制方式打開文件
ifstream ifs(filepath, ios::binary);
if (!ifs)
return hash;
//一次讀取多少字節的文件
int block_size = 128;
//文件讀取buf
unsigned char buf[1024] = { 0 };
//hash輸出
unsigned char out[1024] = { 0 };
while (!ifs.eof())
{
ifs.read((char*)buf, block_size);
int read_size = ifs.gcount();
if (read_size <= 0)break;
MD5(buf, read_size, out);
hash.insert(hash.end(), out, out + 16);
}
ifs.close();
MD5((unsigned char*)hash.data(), hash.size(), out);
return string(out,out+16);
}
void PrintHex(string data)
{
for (auto c : data)
cout << hex << (int)(unsigned char)c;
cout << endl;
}
int main(int argc, char* argv[])
{
cout << "Test Hash!" << endl;
unsigned char data[] = "測試md5數據";
unsigned char out[1024] = { 0 };
int len = sizeof(data);
MD5_CTX c;
MD5_Init(&c);
MD5_Update(&c, data, len);
MD5_Final(out, &c);
for (int i = 0; i < 16; i++)
cout << hex << (int)out[i];
cout << endl;
data[1] = 9;
MD5(data, len, out);
for (int i = 0; i < 16; i++)
cout << hex << (int)out[i];
cout << endl;
string filepath = "../../src/test_hash/test_hash.cpp";
auto hash1 = GetFileListHash(filepath);
PrintHex(hash1);
//驗證文件完整性
for (;;)
{
auto hash = GetFileListHash(filepath);
if (hash != hash1)
{
cout << "文件被修改" ;
PrintHex(hash);
}
this_thread::sleep_for(1s);
}
getchar();
return 0;
}