字符匹配算法-RK算法

原創

2020-06-30 04:04

字符匹配算法-RK算法

R-K算法流程：
思想是構造一個hash函數，字符串作爲輸入，hash值相同的字符串有極大可能匹配。檢測流程基本和暴力匹配是一樣的，但是爲什麼效率可以達到O（n）呢？n爲待匹配字符串長度，因爲在[i,i+m-1]檢測失敗後，進行[i+1,i+m]檢測時，計算hash值可以直接通過前者的hash值計算得到，時間複雜度爲O(1).所以最終複雜度可以達到O(n).
該算法效率關鍵在於hash函數的設置，減少衝突。
hash函數爲：hash(Si-m+1…Si) = Si-m+1xm-1 + Si-m+2xm-2 + … + Si-1*x + Si

則 hash(Si-m+2…Si+1) = Si-m+2xm-1 + Si-m+3xm-2 + … + Six + Si+1 = (hash(Si-m+1…Si) - Si-m+1xm-1) * x + Si+1

代碼：

  int strStr(string haystack, string needle) {
  int hs_l=haystack.length();
  int nd_l=needle.length();
  if(nd_l==0)return 0;
  if(hs_l<nd_l || hs_l==0)
      return -1;

  unsigned int base=1;
  unsigned int x=7;
  unsigned int vas=(unsigned char)haystack[0];
  unsigned int vax=(unsigned char)needle[0];
  for (int i=1;i<nd_l;i++)
  {
      vas=x*vas+(unsigned char)haystack[i];
      vax=x*vax+(unsigned char)needle[i];
      base*=x;
  }
  int i=nd_l-1;
  while (i<hs_l)
  {
      if(vas==vax)
      {
          int j,ind;
          for (j=i-nd_l+1,ind=0;j<=i;++j,++ind)
          {
              if(haystack[j]!=needle[ind])break;
          }

          if(j>i)
              return i-nd_l+1;
      }
      vas-=base*(unsigned char)haystack[i-nd_l+1];
      vas=vas*x+(unsigned char)haystack[++i];
  }
  return -1;
   }

ps：https://www.cnblogs.com/zghaobac/p/3999253.html
這位博客寫的非常好，除了最後對效率的改進關於x的設置我不能理解，其他都非常優秀。可以幫助理解。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

最長迴文子串題解

最長迴文子串給定一個字符串 s，找到 s 中最長的迴文子串。你可以假設 s 的最大長度爲 1000。輸入：babad 輸出 bab 分析：第一思路是暴力，O（n3）肯定是不行的。這裏要採用同樣是動態規劃的中心拓展思想：

2020-06-30 04:04:05

三數之和，最接近三數之和，四數之和題解

這三個題是同類型，可惜我是憨憨。雙指針沒有完全掌握。mark一下三數之和給定一個包含 n 個整數的數組 nums，判斷 nums 中是否存在三個元素 a，b，c ，使得 a + b + c = 0 ？找出所有滿足條件且不重複的

2020-06-30 04:04:05

兩數相除題解

兩數相除題解給定兩個整數，被除數 dividend 和除數 divisor。將兩數相除，要求不使用乘法、除法和 mod 運算符。返回被除數 dividend 除以除數 divisor 得到的商。題解：這道題說實話沒啥意思，主

2020-06-30 04:04:05

串聯所有單詞的字串題解

串聯所有單詞的字串題解有單詞串聯形成的子串的起始位置。注意子串要與 words 中的單詞完全匹配，中間不能有其他字符，但不需要考慮 words 中單詞串聯的順序。 s = “barfoothefoobarman”, words

2020-06-30 04:04:05

無重複字符的最長子串問題思路解析

無重複字符的最長子串問題給定一個字符串，請你找出其中不含有重複字符的最長子串的長度。如輸入 abcabcbb 輸出 3 本題難點在於對於遍歷過程中輸入的每一個字符，都要在候選子串中檢查是否已經出現。同時，子串的性質

2020-06-30 04:04:05

下一個排列題解

下一個排序題解這道題沒什麼意思，但是字典序排列規則我着實沒記住，所以mark一下。字典序列的下一個的排列：找到最大的K 使得nums[K]<nums[K+1] 找到[K+1:] 中最大的j使得nums[j]>nums[K]

2020-06-30 04:04:05

c++ 數據結構——樹

1.樹概念：暫略。 2.樹的相關題目： 2.1 leetcode 104 —— Maximum Depth of Binary Tree /** * Definition for a binary tree node. * str

大王叫我来巡山228

2020-06-23 11:15:08

LeetCode:N-Queens I （n皇后問題）

轉載來自http://www.cnblogs.com/TenosDoIt/p/3801621.html博客園 N-Queens The n-queens puzzle is the problem of placing n qu

2020-06-22 08:53:45

【leetcode刷題筆記】128. 最長連續序列

題目給定一個未排序的整數數組，找出最長連續序列的長度。要求算法的時間複雜度爲 O(n)。示例：輸入: [100, 4, 200, 1, 3, 2] 輸出: 4 解釋: 最長連續序列是 [1, 2, 3, 4]。它的長度爲

2020-06-16 08:31:04

【leetcode刷題筆記】1081. 不同字符的最小子序列

題目鏈接(https://leetcode-cn.com/problems/smallest-subsequence-of-distinct-characters/) 思路要得到一個字典序最小的字符串，並且把給定的字符串中的每個

2020-06-16 08:31:04

leetcode_algorithm9.Palindrome Number

題目： Determine whether an integer is a palindrome. An integer is a palindrome when it reads the same backward as forwar

2020-06-14 13:16:07

leetcode 39題組合總數（c++）

題目描述：給定一個無重複元素的數組 candidates 和一個目標數 target ，找出 candidates 中所有可以使數字和爲 target 的組合。 candidates 中的數字可以無限制重複被選取。說明：所有數字（包

大王叫我来巡山228

2020-06-11 18:19:54

leetcode 78題子集（c++ 三種解法）

題目描述：給定一組不含重複元素的整數數組 nums，返回該數組所有可能的子集（冪集）。說明：解集不能包含重複的子集。示例: 輸入: nums = [1,2,3] 輸出: [ [3], [1], [2], [1,2,

大王叫我来巡山228

2020-06-11 18:19:54

LeetCode718最長重複子數組

2020-05-13 20:21:30

Problem26 刪除排序數組中的重複項

2020-05-13 20:21:30

24小時熱門文章

最新文章

最新評論文章