修復損壞的gz或tar.gz壓縮文件之方法篇

GZIP結構圖:
修復損壞的gz或tar.gz壓縮文件之方法篇
修復一個損壞的gzip文件的關鍵環節在於找到下一個正常壓縮包的起始點。根據結構圖中的信息可知,每個壓縮包的開始結構中有是否到達尾部標誌、使用的哈夫曼樹類型、以及3個哈夫曼樹的樹元素個數等。如果某個gzip文件中間有一個壞扇區,要找到壞扇區後的一個正常起點,僅需按位右移,一直移位到可以正常解壓的某個位,就可能找到了正確的壓縮包起始。而根據gzip文件的壓縮作業窗口爲32KB大小推算,這個遍歷不會超過64KB即可找到。在內存中快速循環可以很快找到,但需要有明確的判斷錯誤的方法。
首先可以明確的是結尾標誌,應該爲0(我們是從損壞的點向後查)。而哈夫曼樹類型也大致應該是動態哈夫曼(0x02),cl1的元素個數應該取值爲257到286之間(包含邊界),cl2的元素個數應小於等於30,ccl的元素個數取值可爲1-15(包含邊界)。
其實,還可以參考的東西有,解開的哈夫曼樹是否異常,或者通過規律性原則找到最後一個取值爲256的值,但這些算法應該是較爲麻煩的,有上面的算法連續校驗幾個壓縮塊就足夠了。
具體方法是對gzip的源碼做修改,進行遍歷。因時間關係,未做成通用工程,僅快速修改了部分代碼。大致的修改點爲:
一、找到損壞點:
在unzip.c中,
error("invalid compressed data--format violated");
這一行前,獲取當前解碼字節位置即可。
 
二、遍歷找到損壞點:
1、inflate.c文件中,改
if (nl > 286 || nd > 30)
#endif
return 1;
爲:
if (nl > 286 || nd > 30||nl <257 || nd <1)
#endif
return 1;
2、inflate.c文件中,在int inflate_block(e)函數中
在如下代碼前
bb = b;
bk = k;
加入代碼:
if ((t != 2) || (e != 0))
return 2;
3、inflate.c文件中,在int inflate_block(e)函數尾部
把if (t == 0) 與if (t == 1)的情況都直接返回錯誤值2
4、inflate.c文件中,函數int inflate()中,改
if ((r = inflate_block(&e)) != 0) 
return r;
end
爲:
unsigned t; /
block type /
register ulg b; /
bit buffer /
register unsigned k; /
number of bits in bit buffer /
while (inptr <= insize)
{
unsigned int tptr = inptr; 
unsigned int tbk = bk; 
unsigned long tbb = bb; 
unsigned int twp = wp; 
long long tstart =
(long long*)(inbuf + tptr);
if ((r = inflate_block(&e)) != 0)
{
inptr = tptr;
bb = tbb;
bk = tbk;
wp = twp;
b = bb;
k = bk;
NEEDBITS(1)
DUMPBITS(1)
}
else
{
printf("get by www.datahf.net!"); //也可輸出tstart,bb,bk 值
}
}
此4步完成後,試着調試這個錯誤的.gz文件,當然,也可以在代碼中解釋完頭部結構後加一個seek,直接seek到損壞位置。
通常情況下,輸出printf(“get by www.datahf.net!”)這行代碼時,已經找到了正確的起始位
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章