字符匹配算法-RK算法
-
R-K算法流程:
思想是構造一個hash函數,字符串作爲輸入,hash值相同的字符串有極大可能匹配。檢測流程基本和暴力匹配是一樣的,但是爲什麼效率可以達到O(n)呢?n爲待匹配字符串長度,因爲在[i,i+m-1]檢測失敗後,進行[i+1,i+m]檢測時,計算hash值可以直接通過前者的hash值計算得到,時間複雜度爲O(1).所以最終複雜度可以達到O(n).
該算法效率關鍵在於hash函數的設置,減少衝突。
hash函數爲:hash(Si-m+1…Si) = Si-m+1xm-1 + Si-m+2xm-2 + … + Si-1*x + Si則 hash(Si-m+2…Si+1) = Si-m+2xm-1 + Si-m+3xm-2 + … + Six + Si+1 = (hash(Si-m+1…Si) - Si-m+1xm-1) * x + Si+1
代碼:
int strStr(string haystack, string needle) { int hs_l=haystack.length(); int nd_l=needle.length(); if(nd_l==0)return 0; if(hs_l<nd_l || hs_l==0) return -1; unsigned int base=1; unsigned int x=7; unsigned int vas=(unsigned char)haystack[0]; unsigned int vax=(unsigned char)needle[0]; for (int i=1;i<nd_l;i++) { vas=x*vas+(unsigned char)haystack[i]; vax=x*vax+(unsigned char)needle[i]; base*=x; } int i=nd_l-1; while (i<hs_l) { if(vas==vax) { int j,ind; for (j=i-nd_l+1,ind=0;j<=i;++j,++ind) { if(haystack[j]!=needle[ind])break; } if(j>i) return i-nd_l+1; } vas-=base*(unsigned char)haystack[i-nd_l+1]; vas=vas*x+(unsigned char)haystack[++i]; } return -1; }
ps:https://www.cnblogs.com/zghaobac/p/3999253.html
這位博客寫的非常好,除了最後對效率的改進關於x的設置我不能理解,其他都非常優秀。可以幫助理解。