海量數據相似度計算之simhash和海明距離

通過採集系統我們採集了大量文本數據，但是文本中有很多重複數據影響我們對於結果的分析。分析前我們需要對這些數據去除重複，如何選擇和設計文本的去重算法？常見的有餘弦夾角算法、歐式距離、Jaccard相似度、最長公共子串、編輯距離等。這些算法對於待比較的文本數據不多時還比較好用，如果我們的爬蟲每天採集的數據以千萬計算，我們如何對於這些海量千萬級的數據進行高效的合併去重。最簡單的做法是拿着待比較的文本和數據庫中所有的文本比較一遍如果是重複的數據就標示爲重複。看起來很簡單，我們來做個測試，就拿最簡單的兩個數據使用Apache提供的 Levenshtein for 循環100w次計算這兩個數據的相似度。代碼結果如下：

String s1 ="你媽媽喊你回家吃飯哦，回家羅回家羅";
String s2 ="你媽媽叫你回家吃飯啦，回家羅回家羅";

long t1 =System.currentTimeMillis();

for(int i =0; i <1000000; i++){
int dis = StringUtils .getLevenshteinDistance(s1, s2);
}

long t2 =System.currentTimeMillis();

System. out .println(" 耗費時間： "+(t2 - t1)+"  ms ");

耗費時間： 4266 ms

大跌眼鏡，居然計算耗費4秒。假設我們一天需要比較100w次，光是比較100w次的數據是否重複就需要4s，就算4s一個文檔，單線程一分鐘才處理15個文檔，一個小時才900個，一天也才21600個文檔，這個數字和一天100w相差甚遠，需要多少機器和資源才能解決。

爲此我們需要一種應對於海量數據場景的去重方案，經過研究發現有種叫 local sensitive hash 局部敏感哈希的東西，據說這玩意可以把文檔降維到hash數字，數字兩兩計算運算量要小很多。查找很多文檔後看到google對於網頁去重使用的是simhash，他們每天需要處理的文檔在億級別，大大超過了我們現在文檔的水平。既然老大哥也有類似的應用，我們也趕緊嘗試下。simhash是由 Charikar 在2002年提出來的，參考《Similarity estimation techniques from rounding algorithms》。介紹下這個算法主要原理，爲了便於理解儘量不使用數學公式，分爲這幾步：

1、分詞，把需要判斷文本分詞形成這個文章的特徵單詞。最後形成去掉噪音詞的單詞序列併爲每個詞加上權重，我們假設權重分爲5個級別（1~5）。比如：“ 美國“51區”僱員稱內部有9架飛碟，曾看見灰色外星人 ” ==> 分詞後爲 “ 美國（4） 51區（5）僱員（3）稱（1）內部（2）有（1） 9架（3）飛碟（5）曾（1）看見（3）灰色（4）外星人（5）”，括號裏是代表單詞在整個句子裏重要程度，數字越大越重要。
2、hash，通過hash算法把每個詞變成hash值，比如“美國”通過hash算法計算爲 100101,“51區”通過hash算法計算爲 101011。這樣我們的字符串就變成了一串串數字，還記得文章開頭說過的嗎，要把文章變爲數字計算才能提高相似度計算性能，現在是降維過程進行時。
3、加權，通過 2步驟的hash生成結果，需要按照單詞的權重形成加權數字串，比如“美國”的hash值爲“100101”，通過加權計算爲“4 -4 -4 4 -4 4”；“51區”的hash值爲“101011”，通過加權計算爲 “ 5 -5 5 -5 5 5”。
4、合併，把上面各個單詞算出來的序列值累加，變成只有一個序列串。比如 “美國”的 “4 -4 -4 4 -4 4”，“51區”的 “ 5 -5 5 -5 5 5”，把每一位進行累加， “4+5 -4+-5 -4+5 4+-5 -4+5 4+5” ==》 “9 -9 1 -1 1 9”。這裏作爲示例只算了兩個單詞的，真實計算需要把所有單詞的序列串累加。
5、降維，把4步算出來的 “9 -9 1 -1 1 9” 變成 0 1 串，形成我們最終的simhash簽名。如果每一位大於0 記爲 1，小於0 記爲 0。最後算出結果爲：“1 0 1 0 1 1”。

整個過程圖爲：

大家可能會有疑問，經過這麼多步驟搞這麼麻煩，不就是爲了得到個 0 1 字符串嗎？我直接把這個文本作爲字符串輸入，用hash函數生成 0 1 值更簡單。其實不是這樣的，傳統hash函數解決的是生成唯一值，比如 md5、hashmap等。md5是用於生成唯一簽名串，只要稍微多加一個字符md5的兩個數字看起來相差甚遠；hashmap也是用於鍵值對查找，便於快速插入和查找的數據結構。不過我們主要解決的是文本相似度計算，要比較的是兩個文章是否相識，當然我們降維生成了hashcode也是用於這個目的。看到這裏估計大家就明白了，我們使用的simhash就算把文章中的字符串變成 01 串也還是可以用於計算相似度的，而傳統的hashcode卻不行。我們可以來做個測試，兩個相差只有一個字符的文本串，“你媽媽喊你回家吃飯哦，回家羅回家羅” 和 “你媽媽叫你回家吃飯啦，回家羅回家羅”。

通過simhash計算結果爲：

1000010010101101111111100000101011010001001111100001001011001011

1000010010101101011111100000101011010001001111100001101010001011

通過 hashcode計算爲：

1111111111111111111111111111111110001000001100110100111011011110

1010010001111111110010110011101

大家可以看得出來，相似的文本只有部分 01 串變化了，而普通的hashcode卻不能做到，這個就是局部敏感哈希的魅力。目前Broder提出的shingling算法和Charikar的simhash算法應該算是業界公認比較好的算法。在simhash的發明人Charikar的論文中並沒有給出具體的simhash算法和證明，“量子圖靈”得出的證明simhash是由隨機超平面hash算法演變而來的。

現在通過這樣的轉換，我們把庫裏的文本都轉換爲simhash 代碼，並轉換爲long類型存儲，空間大大減少。現在我們雖然解決了空間，但是如何計算兩個simhash的相似度呢？難道是比較兩個simhash的01有多少個不同嗎？對的，其實也就是這樣，我們通過海明距離（Hamming distance）就可以計算出兩個simhash到底相似不相似。兩個simhash對應二進制（01串）取值不同的數量稱爲這兩個simhash的海明距離。舉例如下： 10101 和 00110 從第一位開始依次有第一位、第四、第五位不同，則海明距離爲3。對於二進制字符串的a和b，海明距離爲等於在a XOR b運算結果中1的個數（普遍算法）。

爲了高效比較，我們預先加載了庫裏存在文本並轉換爲simhash code 存儲在內存空間。來一條文本先轉換爲 simhash code，然後和內存裏的simhash code 進行比較，測試100w次計算在100ms。速度大大提升。

未完待續：

1、目前速度提升了但是數據是不斷增量的，如果未來數據發展到一個小時100w，按現在一次100ms，一個線程處理一秒鐘 10次，一分鐘 60 * 10 次，一個小時 60*10 *60 次 = 36000次，一天 60*10*60*24 = 864000次。我們目標是一天100w次，通過增加兩個線程就可以完成。但是如果要一個小時100w次呢？則需要增加30個線程和相應的硬件資源保證速度能夠達到，這樣成本也上去了。能否有更好的辦法，提高我們比較的效率？

2、通過大量測試，simhash用於比較大文本，比如500字以上效果都還蠻好，距離小於3的基本都是相似，誤判率也比較低。但是如果我們處理的是微博信息，最多也就140個字，使用simhash的效果並不那麼理想。看如下圖，在距離爲3時是一個比較折中的點，在距離爲10時效果已經很差了，不過我們測試短文本很多看起來相似的距離確實爲10。如果使用距離爲3，短文本大量重複信息不會被過濾，如果使用距離爲10，長文本的錯誤率也非常高，如何解決？