位圖算法的應用

位圖的應用

編程珠璣 Chapter1

位圖或位向量圖作爲一個集合，表示的這樣的一個數據結構：

用字符串 0 1 1 1 0 1 0 0 1 0 0 0 0 1 0 0 0 0 0 0 表示集合 {1,2,3,5,8,13}.

位圖的應用需要數據有如下的特性:

1.輸入數據限制在相對較小的範圍內;

2.數據沒有重複;

3.除了單一整數外,沒有任何其他關聯數據.

但很可惜的是,大多數待排序數據沒有這些特性(就是說這些特性在大多數情況下是很難滿足的).

習題1 如果不缺內存，如何使用一個具有庫的語言來實現一種排序算法以表示和排序集合

解題報告:

擁有庫的語言,C/C++/JAVA都是很好的選擇,由於目前只會C++,因此對於我來說別無選擇. 而對於C++,實現排序的庫有太多的選擇,典型的有STL中的stdlib.h中的qsort和algorithm中的sort.對於這兩者的區別,在這裏不想多談(其實我並不清楚,大概瞭解的是stdlib是C的產物,而algorithm的後代,不過,sort在使用上比較簡單).

#include <algorithm>#include <iostream>#include <vector>using namespace std;int main(){vector<int> a;for(int i=0;i<=5;i++) a.push_back(i-5);sort(a.begin(),a.end());for(int i=0;i<5;i++) cout<<a[i]<<' ';return 0;}

習題二如何使用位邏輯運算（例如與、或、移位）來實現位向量

解題報告：

一開始當然沒有想到要用位邏輯運算來實現位向量，而是用十進制來實現（這是理所當然的事）。

用一個一維數組a[10000000]來存儲至多1E7個號碼，考慮整數m,一旦發現這個號碼，根據我們的算法，應當置a[m]=1.

好的，一切看起來都如此完美，簡單的算法，出色的時間效率，差強人意的空間效率.但上機起來就不是這回事了:

#include <fstream>#include <iostream>using namespace std;int main(){ifstream in;ofstream outt;in.open("c:/project/out.txt");outt.open("c:/project/outt.txt");bool a[10000000];for(int i=0;i<10000000;i++) a[i]=false;int m;for(int i=0;i<1000000;i++) {in>>m; a[m]=true;}for(int i=0;i<10000000;i++) if(a[m]==true) outt<<m<<endl;in.close();outt.close();return 0;}

但是美好的想法在現實面前是如此的脆弱,這段代碼在運行的時候出錯了,原因是數組越界.好吧,現在我可以承認,數組開到1E7是不現實的,這該如何是好?

現在是時候回到位邏輯運算了,這是一種模仿計算機底層二進制運算的運算方法,十分高效,但是第一次看上去會顯得晦澀難懂,等到將它與十進制運算聯繫起來後,會發現它相當有用.

整個的思想是,a[10000000]顯得太過巨大的原因是每一個元素a[i]只保留了一個bool值或者是一個整型值0或1,如果我們把每一個元素包含的內容擴充,使之保留儘可能多的號碼是否存在的信息,那麼數組範圍會得到明顯的下降.

事實上,我們是用每一個元素表示一個32位的二進制字符串,這樣這個元素可以保留相鄰32個號碼是否存在的信息,數組範圍就下降到10000000/32了.例如對於號碼89256,由於89256 mod 32=2789…8,這樣我們應該置a[2789]中32位字符串的第8位(從低位數起)爲1.

現在問題的關鍵是,如何用位邏輯運算來表示這種操作. 關於位邏輯運算的知識,你應當去參考手頭的C++教材,因爲在這裏我無法講的比教材更好:

#define WORD 32#define SHIFT 5 //移動5個位,左移則相當於乘以32,右移相當於除以32取整#define MASK 0x1F //六進制下的31#define N 10000000//置位函數——用"|"操作符,i&MASK相當於mod操作//m mod n 運算，當n = 2的X次冪的時候,m mod n = m&(n-1)void set(int i){a[i>>SHIFT]|=(1<<(i&MASK));}//清除位操作，用&~操作符void clear(int i){a[i>>SHIFT]&=~(1<<(i&MASK));}//測試位操作用&操作符int test(int i){return a[i>>SHIFT]&(1<<(i&MASK));}

重要的是要從十進制運算的思維轉化爲二進制運算,位邏輯運算不過是工具而已.

下面是一個位運算的類：

namespace mybv { class BitVector { private : const int shift; const int mask; const int bitPerWord; int* a; public: const int n; public: BitVector():shift(5),mask(0x1F),bitPerWord(32),n(10000000) { a = new int[1+n/bitPerWord]; for (int i =0; i<n;i++) { clr(i); } } ~BitVector() { } void set(int i) { a[i>>shift] |=(1<<(i&mask)); } void clr(int i) { a[i>>shift] &=~(1<<(i&mask)); } int test(int i) { return a[i>>shift]&(1<<(i&mask)); } }; }

習題三在你自己的系統上實現位圖排序並度量其運行時間

解題報告:

#define WORD 32#define SHIFT 5 //移動5個位,左移則相當於乘以32,右移相當於除以32取整#define MASK 0x1F //六進制下的31#define N 10000000#include <fstream>#include <iostream>using namespace std;//置位函數——用"|"操作符,i&MASK相當於mod操作//m mod n 運算，當n = 2的X次冪的時候,m mod n = m&(n-1)void set(int i){a[i>>SHIFT]|=(1<<(i&MASK));}//清除位操作，用&~操作符void clear(int i){a[i>>SHIFT]&=~(1<<(i&MASK));}//測試位操作用&操作符int test(int i){return a[i>>SHIFT]&(1<<(i&MASK));}int main(){ifstream in;ofstream outt;in.open("c:/project/out.txt");outt.open("c:/project/outt.txt");int m;for(int i=0;i<N;i++) clear(i);for(int i=0;i<N/10;i++) {in>>m; set(m);}for(int i=0;i<N;i++) {if(test(i)==1) outt<<i<<endl;}in.close();outt.close();return 0;}

爲什麼說這個算法時空效率達到極致呢？我們對１００萬個不重複的正整數（１000,0000以內）的文件進行測試：