哈夫曼編碼及文本文件的壓縮解壓（c++SourceCode）

	哈夫曼編碼是一種編碼方式，是可變字長編碼(VLC)的一種。以哈夫曼樹—即最優二叉樹，帶權路徑長度最小的二叉樹，經常應用於數據

壓縮。 在計算機信息處理中，“哈夫曼編碼”是一種一致性編碼法（又稱"熵編碼法"），用於數據的無損耗壓縮。這一術語是指使用一張特殊的

編碼表將源字符（例如某文件中的一個符號）進行編碼。這張編碼表的特殊之處在於，它是根據每一個源字符出現的估算概率而建立起來的（出

現概率高的字符使用較短的編碼，反之出現概率低的則使用較長的編碼，這便使編碼之後的字符串的平均期望長度降低，從而達到無損壓縮數

據的目的）。這種方法是由David.A.Huffman發展起來的。 例如，在英文中，e的出現概率很高，而z的出現概率則最低。當利用哈夫曼編碼

對一篇英文進行壓縮時，e極有可能用一個位(bit)來表示，而z則可能花去25個位（不是26）。用普通的表示方法時，每個英文字母均佔用一

個字節（byte），即8個位。二者相比，e使用了一般編碼的1/8的長度，z則使用了3倍多。倘若我們能實現對於英文中各個字母出現概率的較

準確的估算，就可以大幅度提高無損壓縮的比例。

	其中哈夫曼編碼的構造過程爲:

	（1）初始化，根據符號概率的大小按由大到小順序對符號進行排序。
	（2）把概率最小的兩個符號組成一個新符號（節點），即新符號的概率等於這兩個符號概率之和。
	（3）重複第2步，直到形成一個符號爲止（樹），其概率最後等於1。
	（4）從編碼樹的根開始回溯到原始的符號，並將每一左分枝賦值爲0，右分枝賦值爲0。

	前三步爲構造哈夫曼樹過程,既而在第四步遍歷構造出的哈夫曼樹,得到各字符的最優前綴碼.

	爲了快速實現取集合中的最小值及向集合中插入新的元素,可以使用二叉堆來實現,二叉堆的定義及實現請另行參考.(注:由於ASCII碼及

char型數據範圍的限制,編碼過程中生成的哈夫曼樹不會非常大,所以生成哈夫曼樹所需要的時間在整個壓縮過程中顯得微不足道,可用其它方

式來生成哈夫曼樹.)

以一棵生成的哈夫曼樹爲例(圖片來自:http://blog.163.com/yuang_yu_ping/blog/static/4693287620098172049346/):

圖片中的哈夫曼樹對應的綠色即葉結點爲待編碼字符,對應的前綴碼分別爲:

A : 10

C : 01

D : 11

E : 000

M : 001

	在文本文件的壓縮過程中,首先取ASCII字符對應的出現次數,然後對 0x00~0xff 這些字符根據出現頻率生成對應的前綴碼,然後讀取

文件 ,爲每一個字符進行編碼.

	編碼問題已經解決了,可是如果要實現文件壓縮,壓縮文件的編碼如何進行存儲呢? 首先明確一點,源文件壓縮之後的編碼對應的是二進制的

位段,而C語言中每個char 類型佔用八位的空間,我們可以把編碼後的二進制位以八位爲一段,生成對應的字符來存儲.對最後不足八位的二進制段,

補足八位,用一個字符表示,依次存儲這些轉化來的字符,即可生成壓縮文件.

	另,爲了解壓的需要,我們要存儲編碼的信息至壓縮文件中,可以採用源文件中各字符出現的頻率來記錄,解碼時讀取這些信息,再利用這些信息

重新生成一棵同樣的哈夫曼樹,另外壓縮文件頭中存儲有最後一個字符實際佔用的位數,用以在解壓時對最後一個字符正確處理.

	至此,用哈夫曼編碼來實現文本文件壓縮的大致過程也算明白了,下面來談一談具體實現:

	首先是哈夫曼樹的結點,

//哈夫曼樹結點結構體實現
typedef struct talNode{
	
	unsigned char c;	//葉結點時對應ASCII值
	int weight;			//該結點權值
	int lt,rt;			//左、右結點下標
	
	talNode(){}
	
	talNode(unsigned char _c,int _p):
	c(_c),weight(_p),lt(-1),rt(-1)
	{}
	
	talNode(unsigned char _c,int _p,int l,int r)
		:c(_c),weight(_p),lt(l),rt(r)
	{}
	
	bool operator < (talNode a)
	{//重載運算符“<”用於二叉堆內的比較
		return weight<a.weight;
	}
	
}HuffNode;

	生成哈夫曼樹時要用到的堆

//實現二叉堆模板類，小頂堆
template <class HeapType>
class CHeap
{
	HeapType *data,tmp;
	int size;
	
	void HeapUp(int ix)
	{//自底向頂維護堆
		int f;
		for(f=F(ix);ix&&data[ix]<data[f];ix=f,f=F(f))
			SWAP(data[ix],data[f],tmp);
	}
	
	void HeapDown(int ix)
	{//自頂向底維護堆
		int l,r,t;
		HeapType min,tmp;
		if(ix>=size) return ;
		l=L(ix),r=R(ix);
		
		min=data[ix],t=ix;
		
		if(l<size&&data[l]<min)
			t=l,min=data[l];
		if(r<size&&data[r]<min)
			t=r,min=data[l];
		
		SWAP(data[ix],data[t],tmp);
		if(ix!=t) HeapDown(t);
	}
	
public:
	CHeap()
	{//這裏特殊應用，堆內元素個數不超過256
		size=0;
		data=new HeapType[256];
	}
	~CHeap()
	{//釋放內存
		delete data;
	}
	int getsize()
	{//返回堆大小
		return size;
	}
	void clear()
	{//清空堆
		size=0;
	}
	void insert(HeapType e)
	{//向堆尾中插入元素，並向頂維護堆
		data[size++]=e;
		HeapUp(size-1);
	}
	HeapType top()
	{//從堆頂取出元素，並向底維護堆
		HeapType ret=data[0];
		data[0]=data[--size];
		HeapDown(0);return ret;
	}
};

	進行壓縮工作時的變量:

	HuffNode arr[512];		//哈夫曼樹結點數組
	int size;				//哈夫曼樹結點個數
	bool code[256][64];		//ASCII對應編碼方案
	int lenth[256];			//ASCII對應編碼長度

	//lastcodelenth,ps[256],用於存儲壓縮文件中作爲文件頭
	int lastcodelenth;		//文件最後一個字符實用幾位
	int ps[256];			//ASCII對應出現頻率
	int soucelen,targetlen; //源及目標文件長度

	CHuffMan類的聲明:

class CHuffMan{
	HuffNode arr[512];		//哈夫曼樹結點數組
	int size;				//哈夫曼樹結點個數
	bool code[256][64];		//ASCII對應編碼方案
	int lenth[256];			//ASCII對應編碼長度

	//lastcodelenth,ps[256],用於存儲壓縮文件中作爲文件頭
	int lastcodelenth;		//文件最後一個字符實用幾位
	int ps[256];			//ASCII對應出現頻率
	int soucelen,targetlen; //源及目標文件長度


	//私有成員函數，用於實現內部功能
	void SetHuffTree(int []);			//根據字符頻率生成哈夫曼樹
	void SetHuffCode(int ,bool [],int );//根據哈夫曼樹生成編碼方案
	void CreateHuff(int []);			//創建哈夫曼樹及編碼方案
	void EnCodePre(char []);			//壓縮前預處理
	void DeCodePre(FILE *);				//解壓前預處理
	void SaveHuffHead(FILE *);			//保存壓縮文件頭
	void ReadHuffHead(FILE *);			//讀取壓縮文件頭

public:
	CHuffMan(){Clear();}				//構造函數
	~CHuffMan(){}						//析構函數
	
	//公有成員函數，用於提供使用接口
	void Clear();						//清空當前對象內容
	void EnCodeFile(char [],char []);	//編碼，用於壓縮文件，第一個參數爲
										//源文件名，第二個參數爲目標文件名
	void DeCodeFile(char [],char []);	//解碼，用於解壓文件，第一個參數爲
										//源文件名，第二個參數爲目標文件名
	void GetHuffCode();					//輸出ASCII對應編碼方案
	int GetSouceLen();					//輸出當前工作項的源文件長度
	int GetTargetLen();					//輸出當前工作項的目標文件長度
	
};

	思考：從運行效果上來看，壓縮的比例不是非常滿意，壓縮率達不到25%，應該可以採用動態哈夫曼樹的編碼來對大文件的壓縮進行優化，

從而達到更優的壓縮率。確定一個初始哈夫曼樹，然後根據當前處理過的字符動態的調整哈夫曼樹的結構，解壓過程同樣根據解壓過的字符調整哈夫曼樹

結構。   壓縮與解壓的時間效率有待提高，本程序在壓縮及解壓過程中對硬盤進行了大量的讀寫，使速度受到影響，可以通過緩衝帶還實現提速，即構

造內存緩衝區，每次讀寫多個字符，既而進行處理。

	（注：根據哈夫曼樹的構成原理，可以預見一種特殊的情況：哈夫曼樹的結構爲每一層只有一個葉結點，這種情況下的每個字符對應的前綴碼

長度最高會達到256位，在此程序中未進行特殊考慮。）

	運行效果:

	源代碼:

/***************************************************************** Title: 哈夫曼編碼及文件壓縮 Author: Dooler IDE: VC++6.0 Date: 2011-5-31 INFO: 實現了兩個類， CHeap(二叉堆) CHuffMan(文件壓縮) 可對文本文件進行壓縮 QQ: 441809866 ******************************************************************/ #include<iostream> #define ASCIIL 256 #define F(x) ((x-1)>>1) #define L(x) ((x<<1)+1) #define R(x) ((x<<1)+2) #define SWAP(a,b,tmp) {tmp=a;a=b;b=tmp;} using namespace std; //實現二叉堆模板類，小頂堆 template <class HeapType> class CHeap { HeapType *data,tmp; int size; void HeapUp(int ix) {//自底向頂維護堆 int f; for(f=F(ix);ix&&data[ix]<data[f];ix=f,f=F(f)) SWAP(data[ix],data[f],tmp); } void HeapDown(int ix) {//自頂向底維護堆 int l,r,t; HeapType min,tmp; if(ix>=size) return ; l=L(ix),r=R(ix); min=data[ix],t=ix; if(l<size&&data[l]<min) t=l,min=data[l]; if(r<size&&data[r]<min) t=r,min=data[l]; SWAP(data[ix],data[t],tmp); if(ix!=t) HeapDown(t); } public: CHeap() {//這裏特殊應用，堆內元素個數不超過256 size=0; data=new HeapType[256]; } ~CHeap() {//釋放內存 delete [] data; } int getsize() {//返回堆大小 return size; } void clear() {//清空堆 size=0; } void insert(HeapType e) {//向堆尾中插入元素，並向頂維護堆 data[size++]=e; HeapUp(size-1); } HeapType top() {//從堆頂取出元素，並向底維護堆 HeapType ret=data[0]; data[0]=data[--size]; HeapDown(0);return ret; } }; //哈夫曼樹結點結構體實現 typedef struct talNode{ unsigned char c; //葉結點時對應ASCII值 int weight; //該結點權值 int lt,rt; //左、右結點下標 talNode(){} talNode(unsigned char _c,int _p): c(_c),weight(_p),lt(-1),rt(-1) {} talNode(unsigned char _c,int _p,int l,int r) :c(_c),weight(_p),lt(l),rt(r) {} bool operator < (talNode a) {//重載運算符“<”用於二叉堆內的比較 return weight<a.weight; } }HuffNode; //哈夫曼文件壓縮類聲明 /************************************************ 類說明： 1、通過EnCodeFile(char filef[],char filet[]) 和DeCodeFile(char filef[],char filet[]) 來建立工作項，此時對象中保存壓縮或解壓過和中的詳細信息 2、通過GetHuffCode();GetSouceLen();GetTargetLen() 來獲得當前工作項信息 3、通過Clear();清除當前工作項信息，爲下一次壓縮或解壓作準備 ************************************************/ class CHuffMan{ HuffNode arr[512]; //哈夫曼樹結點數組 int size; //哈夫曼樹結點個數 bool code[256][64]; //ASCII對應編碼方案 int lenth[256]; //ASCII對應編碼長度 //lastcodelenth,ps[256],用於存儲壓縮文件中作爲文件頭 int lastcodelenth; //文件最後一個字符實用幾位 int ps[256]; //ASCII對應出現頻率 int soucelen,targetlen; //源及目標文件長度 //私有成員函數，用於實現內部功能 void SetHuffTree(int []); //根據字符頻率生成哈夫曼樹 void SetHuffCode(int ,bool [],int );//根據哈夫曼樹生成編碼方案 void CreateHuff(int []); //創建哈夫曼樹及編碼方案 void EnCodePre(char []); //壓縮前預處理 void DeCodePre(FILE *); //解壓前預處理 void SaveHuffHead(FILE *); //保存壓縮文件頭 void ReadHuffHead(FILE *); //讀取壓縮文件頭 public: CHuffMan(){Clear();} //構造函數 ~CHuffMan(){} //析構函數 //公有成員函數，用於提供使用接口 void Clear(); //清空當前對象內容 void EnCodeFile(char [],char []); //編碼，用於壓縮文件，第一個參數爲 //源文件名，第二個參數爲目標文件名 void DeCodeFile(char [],char []); //解碼，用於解壓文件，第一個參數爲 //源文件名，第二個參數爲目標文件名 void GetHuffCode(); //輸出ASCII對應編碼方案 int GetSouceLen(); //輸出當前工作項的源文件長度 int GetTargetLen(); //輸出當前工作項的目標文件長度 }; void CHuffMan::SetHuffTree(int ps[]) { //每次取出兩權值最小的結點合併成新樹， //加入堆，直至堆中只餘有一個元素 CHeap<HuffNode> hp; //二叉堆對象 for(int i=0;i<ASCIIL;i++){ //如果字符i出現過，則插入二插堆 if(ps[i]) hp.insert(HuffNode(i,ps[i])); } size=0; //初始化哈夫曼樹中結點個數 while(hp.getsize()>1){ arr[size++]=hp.top(); //取出權值最小的兩個結點 arr[size++]=hp.top(); hp.insert(HuffNode(0, arr[size-1].weight+arr[size-2].weight, size-1,size-2)); //合併結點，並插入堆 } arr[size++]=hp.top(); //arr[size-1]爲哈夫曼樹根 } void CHuffMan::SetHuffCode(int ix,bool stk[],int top) { //遞歸深搜哈夫曼樹，生成所有存在的ASCII //的前綴碼 if(arr[ix].c){ //如果 if(top){ //此判斷用於只含有一類字符的文件 memmove(code[arr[ix].c],stk,sizeof(bool)*top); lenth[arr[ix].c]=top; } else lenth[arr[ix].c]=1; return ; } stk[top]=0; //左子樹的邊設爲0 SetHuffCode(arr[ix].lt,stk,top+1); //遞歸進入左子樹 stk[top]=1; //右子樹的邊設爲1 SetHuffCode(arr[ix].rt,stk,top+1); //遞歸進入右子樹 } void CHuffMan::CreateHuff(int ps[]) { //構造哈夫曼樹及前綴碼 bool stk[64]; SetHuffTree(ps); //根據字符頻率構造哈夫曼樹 SetHuffCode(size-1,stk,0); //根據哈夫曼樹生成前綴碼 } void CHuffMan::EnCodePre(char sfilename[]) { //壓縮文件預處理，讀取字符出現頻率 FILE *fp; //及構造哈夫曼樹及前綴碼 int c; fp=fopen(sfilename,"rb"); if(fp==NULL){ cout<<"讀取文件錯誤"<<endl; exit(0); } memset(ps,0,sizeof(ps)); //讀取字符出現頻率 while(true){ c=fgetc(fp); if(feof(fp))break; ps[c]++; } fclose(fp); CreateHuff(ps); //構造哈夫曼樹及前綴碼 } void CHuffMan::DeCodePre(FILE *fp) { //解壓文件預處理，讀取壓縮文件頭 //根據讀取頭信息構千哈夫曼樹及前綴碼 ReadHuffHead(fp); CreateHuff(ps); } void CHuffMan::SaveHuffHead(FILE *fp) { //向壓縮文件中寫文件頭 fwrite((void *)&lastcodelenth,4,257,fp);//從lastcodelenth的地址開始的連續 //4*257個字節，即lastcodelenth和 //ps[256]數組內容 targetlen+=4*257; } void CHuffMan::ReadHuffHead(FILE *fp) { //從縮文件中讀文件頭 fread((void *)&lastcodelenth,4,257,fp); //從lastcodelenth的地址開始的連續 //4*257個字節，即lastcodelenth和 soucelen+=4*257; //ps[256]數組內容 } void CHuffMan::Clear() { //清空前前工作項 size=0;soucelen=targetlen=0; lastcodelenth=0; memset(lenth,0,sizeof(lenth)); memset(ps,0,sizeof(ps)); } int CHuffMan::GetSouceLen() { //獲取當前工作項的源文件長度 return soucelen; } int CHuffMan::GetTargetLen() { //獲取當前工作項的目標文件長度 return targetlen; } void CHuffMan::GetHuffCode() { //輸出當前工作項的編碼前綴碼方案 int i; for(i=0;i<ASCIIL;i++){ if(lenth[i]>0){ //如果前綴碼不空 printf("%c : ",i); //輸出ASCII碼 for(int j=0;j<lenth[i];j++){ printf("%d",code[i][j]); //輸出對應前綴碼 } puts(""); } } } void CHuffMan::EnCodeFile(char sfilename[],char gfilename[]) { //將文件sfilename //壓縮爲文件gfilename[] FILE *fp,*fpt; int c,data,l,i; EnCodePre(sfilename); //壓縮預處理，生成哈曼樹及 //字符前綴碼 fp=fopen(sfilename,"rb"); fpt=fopen(gfilename,"wb"); SaveHuffHead(fpt); //寫入壓縮文件的頭信息 //!!!注意，此時lastcodelenth //爲空，需壓縮結束時重置 l=data=0; puts("Encoding ... "); //編碼壓縮過程，依次對源文件字符進行編碼 while(true){ //存入一個字符中，用移位操作實現，每8位前 c=fgetc(fp); //綴碼對應一個字符，將該字符存入目標文件， if(feof(fp)) break; //最終不足8位的記錄最後一位佔用的前綴碼長度 soucelen++; //源文件長度增加 for(i=0;i<lenth[c];i++){ //對data進行左移，空出最低位 data<<=1; //對當前字符的前綴碼當前們存儲於data中 data+=code[c][i]; if(++l%8==0){ //滿8位，則存儲 fputc(data,fpt); targetlen++; //目標文件長度增加 } } } //對最後的一個字符進行處理 lastcodelenth=l%8; //記錄實際佔用位的長度 data<<=8-lastcodelenth; //空出剩餘位 fputc(data,fpt); //輸出至文件 targetlen++; //目標文件長度增加 fseek(fpt,0,SEEK_SET); //!!!回溯至文件頭，更新lastcodelenth至 fwrite(&lastcodelenth,4,1,fpt); //真實值 fclose(fp); //關閉文件 fclose(fpt); } void CHuffMan::DeCodeFile(char sfilename[],char gfilename[]) { //解壓文件sfile至gfile FILE *fp=fopen(sfilename,"rb"); FILE *fpt=fopen(gfilename,"wb"); int c,t,l,i; //l用於記錄當前前綴碼段的長度 HuffNode cur; bool tmp[64]; //tmp[]用於記錄當前的前綴碼段 DeCodePre(fp); l=0; puts("Decoding ... "); fscanf(fp,"%c",&c); //解碼過程，壓縮過程的逆過程，取出編碼了的字符， //按位取出，存於tmp[]中，找出前綴碼對應的字符 while(!feof(fp)){ soucelen++; fscanf(fp,"%c",&t); if(feof(fp))break; for(i=l+7;i>=l;i--){ //按位取出前綴碼 tmp[i]=c&1;c>>=1; }l+=8; while(l>=32){ //如果當前前綴碼段超出一定的長度，則取出前綴碼 //進行解碼 for(i=0,cur=arr[size-1];!cur.c;i++) cur=tmp[i]?arr[cur.rt]:arr[cur.lt];//找到前綴碼段對應第一個字符 fprintf(fpt,"%c",cur.c); //輸出至目標文件 l-=i;targetlen++; //前綴碼段減去當前字符前綴碼長度 memmove(tmp,tmp+i,sizeof(bool)*l); //數組順移至開頭，即從0開始記錄當前的 //前綴碼段 }c=t; } for(i=l+7;i>=l;i--){ //對最後一個字符做特殊處理 tmp[i]=c&1; //取出每一位 c>>=1; } l+=lastcodelenth; //只利用最後一個字符的前lastcodelenth位 while(l){ //輸出剩餘的前綴碼段對應的字符 for(i=0,cur=arr[size-1];!cur.c;i++) cur=tmp[i]?arr[cur.rt]:arr[cur.lt]; fprintf(fpt,"%c",cur.c);l-=i;targetlen++; memmove(tmp,tmp+i,sizeof(bool)*l); } fclose(fp);fclose(fpt); //關閉文件 } bool Menu(int &op) { system("cls"); printf("|/t哈夫曼編碼實現文件壓縮/t|/n"); printf("功能:/n"); printf("_________________________________/n"); printf("|/t1、/t壓縮文件/t|/n"); printf("|/t2、/t解壓文件/t|/n"); printf("|/t3、/t輸出編碼方案/t|/n"); printf("|/t0、/t退出 /t|/n"); printf("---------------------------------/n"); do{ printf("請選擇："); scanf("%d",&op); }while(op<0||op>3); return op?true:false; } int main() { int op; char file1[32],file2[32]; CHuffMan work; char step[2]; while(Menu(op)){ switch(op){ case 1: printf("請輸入待壓縮文件名(.txt)："); scanf("%s",file1); printf("請輸入壓縮文件名(.huf)："); scanf("%s",file2); work.Clear(); work.EnCodeFile(file1,file2); printf("源文件長度：/t%d/n",work.GetSouceLen()); printf("目標文件長度:/t%d/n",work.GetTargetLen()); break; case 2: printf("請輸入待壓縮文件名(.huf)："); scanf("%s",file1); printf("請輸入壓縮文件名(.txt)："); scanf("%s",file2); work.Clear(); work.DeCodeFile(file1,file2); printf("源文件長度：/t%d/n",work.GetSouceLen()); printf("目標文件長度:/t%d/n",work.GetTargetLen()); break; case 3: work.GetHuffCode(); break; } puts("按任意鍵繼續..."); gets(step); gets(step); } return 0; }

哈夫曼編碼及文本文件的壓縮解壓（c++SourceCode）

哈夫曼編碼及文本文件的壓縮解壓（c++SourceCode）

Poj DancingLinks（3372 3074 3076）

Poj1830 高斯消元法解Xor方程組

Gauss列主元素消去法

zju 3209 Dlx解精確覆蓋

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結