海量數據處理算法—Bloom Filter

1. Bloom-Filter算法簡介

Bloom-Filter，即布隆過濾器，1970年由Bloom中提出。它可以用於檢索一個元素是否在一個集合中。

Bloom Filter（BF）是一種空間效率很高的隨機數據結構，它利用位數組很簡潔地表示一個集合，並能判斷一個元素是否屬於這個集合。它是一個判斷元素是否存在集合的快速的概率算法。Bloom Filter有可能會出現錯誤判斷，但不會漏掉判斷。也就是Bloom Filter判斷元素不再集合，那肯定不在。如果判斷元素存在集合中，有一定的概率判斷錯誤。因此，Bloom Filter”不適合那些“零錯誤的應用場合。而在能容忍低錯誤率的應用場合下，Bloom Filter比其他常見的算法（如hash，折半查找）極大節省了空間。

它的優點是空間效率和查詢時間都遠遠超過一般的算法，缺點是有一定的誤識別率和刪除困難。

Bloom Filter的詳細介紹：Bloom Filter

2、 Bloom-Filter的基本思想

Bloom-Filter算法的核心思想就是利用多個不同的Hash函數來解決“衝突”。

計算某元素x是否在一個集合中，首先能想到的方法就是將所有的已知元素保存起來構成一個集合R，然後用元素x跟這些R中的元素一一比較來判斷是否存在於集合R中；我們可以採用鏈表等數據結構來實現。但是，隨着集合R中元素的增加，其佔用的內存將越來越大。試想，如果有幾千萬個不同網頁需要下載，所需的內存將足以佔用掉整個進程的內存地址空間。即使用MD5，UUID這些方法將URL轉成固定的短小的字符串，內存佔用也是相當巨大的。

於是，我們會想到用Hash table的數據結構，運用一個足夠好的Hash函數將一個URL映射到二進制位數組（位圖數組）中的某一位。如果該位已經被置爲1，那麼表示該URL已經存在。

Hash存在一個衝突（碰撞）的問題，用同一個Hash得到的兩個URL的值有可能相同。爲了減少衝突，我們可以多引入幾個Hash，如果通過其中的一個Hash值我們得出某元素不在集合中，那麼該元素肯定不在集合中。只有在所有的Hash函數告訴我們該元素在集合中時，才能確定該元素存在於集合中。這便是Bloom-Filter的基本思想。

原理要點：一是位數組，而是k個獨立hash函數。

1）位數組：

假設Bloom Filter使用一個m比特的數組來保存信息，初始狀態時，Bloom Filter是一個包含m位的位數組，每一位都置爲0，即BF整個數組的元素都設置爲0。

2）添加元素，k個獨立hash函數

爲了表達S={x₁, x₂,…,x_n}這樣一個n個元素的集合，Bloom Filter使用k個相互獨立的哈希函數（Hash Function），它們分別將集合中的每個元素映射到{1,…,m}的範圍中。

當我們往Bloom Filter中增加任意一個元素x時候，我們使用k個哈希函數得到k個哈希值，然後將數組中對應的比特位設置爲1。即第i個哈希函數映射的位置hash_i(x)就會被置爲1（1≤i≤k）。

注意，如果一個位置多次被置爲1，那麼只有第一次會起作用，後面幾次將沒有任何效果。在下圖中，k=3，且有兩個哈希函數選中同一個位置（從左邊數第五位，即第二個“1“處）。

3）判斷元素是否存在集合

在判斷y是否屬於這個集合時，我們只需要對y使用k個哈希函數得到k個哈希值，如果所有hash_i(y)的位置都是1（1≤i≤k），即k個位置都被設置爲1了，那麼我們就認爲y是集合中的元素，否則就認爲y不是集合中的元素。下圖中y₁就不是集合中的元素（因爲y1有一處指向了“0”位）。y₂或者屬於這個集合，或者剛好是一個false positive。

顯然這個判斷並不保證查找的結果是100%正確的。

Bloom Filter的缺點：

1）Bloom Filter無法從Bloom Filter集合中刪除一個元素。因爲該元素對應的位會牽動到其他的元素。所以一個簡單的改進就是 counting Bloom filter，用一個counter數組代替位數組，就可以支持刪除了。此外，Bloom Filter的hash函數選擇會影響算法的效果。

2）還有一個比較重要的問題，如何根據輸入元素個數n，確定位數組m的大小及hash函數個數，即hash函數選擇會影響算法的效果。當hash函數個數k=(ln2)*(m/n)時錯誤率最小。在錯誤率不大於E的情況下，m至少要等於n*lg(1/E) 才能表示任意n個元素的集合。但m還應該更大些，因爲還要保證bit數組裏至少一半爲0，則m應該>=nlg(1/E)*lge ，大概就是nlg(1/E)1.44倍(lg表示以2爲底的對數)。