字符匹配算法-RK算法

字符匹配算法-RK算法

  • R-K算法流程:
    思想是構造一個hash函數,字符串作爲輸入,hash值相同的字符串有極大可能匹配。檢測流程基本和暴力匹配是一樣的,但是爲什麼效率可以達到O(n)呢?n爲待匹配字符串長度,因爲在[i,i+m-1]檢測失敗後,進行[i+1,i+m]檢測時,計算hash值可以直接通過前者的hash值計算得到,時間複雜度爲O(1).所以最終複雜度可以達到O(n).
    該算法效率關鍵在於hash函數的設置,減少衝突。
    hash函數爲:hash(Si-m+1…Si) = Si-m+1xm-1 + Si-m+2xm-2 + … + Si-1*x + Si

    則 hash(Si-m+2…Si+1) = Si-m+2xm-1 + Si-m+3xm-2 + … + Six + Si+1 = (hash(Si-m+1…Si) - Si-m+1xm-1) * x + Si+1

    代碼:

      int strStr(string haystack, string needle) {
      int hs_l=haystack.length();
      int nd_l=needle.length();
      if(nd_l==0)return 0;
      if(hs_l<nd_l || hs_l==0)
          return -1;
    
      unsigned int base=1;
      unsigned int x=7;
      unsigned int vas=(unsigned char)haystack[0];
      unsigned int vax=(unsigned char)needle[0];
      for (int i=1;i<nd_l;i++)
      {
          vas=x*vas+(unsigned char)haystack[i];
          vax=x*vax+(unsigned char)needle[i];
          base*=x;
      }
      int i=nd_l-1;
      while (i<hs_l)
      {
          if(vas==vax)
          {
              int j,ind;
              for (j=i-nd_l+1,ind=0;j<=i;++j,++ind)
              {
                  if(haystack[j]!=needle[ind])break;
              }
    
              if(j>i)
                  return i-nd_l+1;
          }
          vas-=base*(unsigned char)haystack[i-nd_l+1];
          vas=vas*x+(unsigned char)haystack[++i];
      }
      return -1;
       }
    

ps:https://www.cnblogs.com/zghaobac/p/3999253.html
這位博客寫的非常好,除了最後對效率的改進關於x的設置我不能理解,其他都非常優秀。可以幫助理解。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章