如何高效地進行遠程大規模字符串比較問題

原創

2020-02-25 09:32

關鍵字（keywords）：大規模字符串匹配遠程比較快速

隨着互聯網的快速發展，信息量成爆炸趨勢，大規模的文本處理已經成爲一個挑戰，今天這裏我想解決一個海量數據中會經常遇到的一個問題，就是如何在兩臺主機之間進行高效地大規模字符串比較問題，如果給定100MB字符串A和1GB字符串B分別在遠程在兩臺主機上，那我想比較A是否是B的字串？

怎麼辦呢？很明顯，我們用一般的算法是無法解決這個問題的。因爲如果是一般的算法，肯定是先傳送這兩個字符串到同一臺機子上，然後再用KMP等算法進行字符串比較，我想大家都知道其實這樣是非常耗時的，我下面給出了我的解法，使用的算法是隨機算法，解決的大致如下：

先將A字符串轉爲01串，轉換後，設01串的長度爲lenA，然後計算該字符串的指紋，指紋是一個整數，在這裏的指紋即能唯一表示A的字符串，如同每一個人的都有自己的手指指紋一樣，是唯一的。

同樣將B串轉爲10串，轉換後，假設01串的長度爲lenB，那麼它的指紋個數爲（lenB-lenA+1）

如下圖所示：

從上圖中，可以看到，B串共有n個指紋。

那麼怎麼計算這個指紋呢？

一般計算指紋如下：令I(x)是x的編碼，去Ip(x)=I(x)(mod p)作爲x的指紋。

Ip(x)是x的指紋

I(x)是x的編碼，就是我們說的原來的字符串

p是一個小於M的素數，M可根據具體需要調整，這裏取M=2*n^2

Ip(x)等於I(x)%p

其實就是把所有01串轉爲一個大數然後mod p 後的結果就是指紋

我的算法如下：用java實現

/** * @param chs : 01串 * @param p ：大素數 * @param m　：A串的長度 * @return ：返回指紋 * 時間複雜度：O(m) */ public static long getFirstFingerprint(char[] chs, long p, int m) { //把01串轉爲一個大數然後mod p 得出來的就是指紋 BigInteger fingerprint = BigInteger.valueOf(0); BigInteger pow = BigInteger.valueOf(1); BigInteger bp = BigInteger.valueOf(p); //這部分的計算就是轉爲一個大數 for (int i = m - 1; i >= 0; i--) { if (chs[i] - '0' == 1) { fingerprint = fingerprint.add(pow); } //System.out.println(pow); pow = pow.multiply(BigInteger.valueOf(2)); } //mod p fingerprint = fingerprint.mod(bp); return fingerprint.longValue(); }

首次計算時用上面的算法，再計算第二個時候用下面另外一種方法，主要基於第一種方法的結果計算得到

我的算法實現如下：

/** * @param firstFingerprint : 前一個指紋 * @param xj ：前一個01串的第一位 * @param xjm: 前一個01串的後邊一個，如1000010， * 前一個01串是100001，那麼後邊一個就是0了，因此，xjm就是0 * @param p: 大素數 * @param m: A串的長度 * @return 下一串的指紋 * 時間複雜度:O(1) */ public static long getNextFingerprint(long firstFingerprint, int xj, int xjm, long p, int m) { BigInteger bi = BigInteger.valueOf(2); long wp = 0; if (xj != 0) { BigInteger exp = BigInteger.valueOf(m); BigInteger mod = BigInteger.valueOf(p); bi = bi.modPow(exp, mod); wp = bi.longValue(); } long ret = (2 * firstFingerprint - wp + xjm) % p; if (ret < 0) ret += p; return ret; }

另外一個問題是快速求得大素數p，p是小於M，但與M（M=2n^2）相近的素數，這裏我用了Miller-Rabin的一個改進算法

時間複雜度爲O(k*(log(n))^3)，n是M的值，k與素數的誤判率有關，誤判率爲1/2^k，如果k取100，基本上就已經不可能出現錯誤了

我將抽取時間寫另外一篇blog是關於大素數高效判斷的方法，也是隨機算法。

至此，問題也就解決了，其他的只需要把主程序寫一下就行了，我的主程序如下：

這裏假設兩個串都在一臺機器上，傳輸被忽略了，如要模擬，其實只須傳輸一個指紋到另一臺主機就行了

//獲得M相鄰的素數p //這裏的算法我會在下一次blog寫下 public static long getNeighborPrimeFast(long M) { long p = --M; boolean isPrime = false; while(!isPrime) { isPrime = Prime.isPrime((int)p); if (isPrime == false) p = --M; } return p; } //隨機產生01串 public static char[] generateCode(int num) { char tmp[] = {'0', '1'}; char[] chs = new char[num]; for (int i = 0; i < num; i++) { chs[i] = tmp[r.nextInt(2)]; } return chs; } public static void main(String[] args) { //A串（01串）長度爲15 隨機產生01串（由於是隨機產生，太大的話很難與B串匹配） char[] ys = StringMatcher.generateCode(15); //B串（01串）長度爲500000 隨機產生01串 char[] xs = StringMatcher.generateCode(500000); int n = xs.length; int m = ys.length; long M = 2 * n * n; long p = StringMatcher.getNeighborPrimeFast(M); long[] fingerPrints = new long[n - m + 1]; long fingerYs; fingerPrints[0] = StringMatcher.getFirstFingerprint(xs, p, m); fingerYs = StringMatcher.getFirstFingerprint(ys, p, m); for (int i = 1; i < fingerPrints.length; i++) { fingerPrints[i] = StringMatcher.getNextFingerprint(fingerPrints[i - 1], xs[i - 1] - '0', xs[i + m - 1] - '0', p, m); } int cnt = 1; for (int i = 0; i < fingerPrints.length; i++) { if (fingerPrints[i] == fingerYs) { System.out.println("count:" + cnt++ + " " + i); } } }

測出結果：與A相同的指紋，準確率(1-1/2^100)

count:1 29747

count:2 50706

count:3 83590

count:4 96803

count:5 103301

count:6 229482

count:7 236235

count:8 246710

count:9 334959

count:10 353036

count:11 363681

count:12 384086

count:13 388068

count:14 417645

count:15 482496

count:16 483673

count:17 487611

count:18 494533

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

如何高效地進行遠程大規模字符串比較問題

vue項目獲取富文本編輯器wangEditor內容導出爲word（html轉word格式並下載）

dotnet C# 創建 X11 應用時設置窗口背景顏色

Navicat安裝與激活教程

TDengine docker安裝方法

vue3組件通信與props

sapui5

Alpine Linux apk add DNS lookup error

部分JDK版本的發佈時間

工作中用到的腳本合集

合併代碼時Beyond Compare設置

Building a New Framework

JavaBean 在jsp的實現

Find_Depth和Link的實現

SVM算法實現（一）

如何高效地進行遠程大規模字符串比較問題

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結