KMP算法（字符串匹配算法）詳解及java實現

原創

syy0377

2020-02-23 13:18

KMP算法是BF(Brute Force)算法的一種改進算法，什麼是BF算法這裏不多做解釋。

1.KMP算法實現思路：

　　每當一趟匹配過程中出現字符比較不等時，不需要回溯主串上面的指針i，而是利用已經計算出的模式串P在j位置前面的子串P₀...P_j-1的部分匹配值k將模式向右滑j-k個字符，然後繼續進行比較。

2.理解"前綴"、"後綴"和“部分匹配值”的概念：

　　首先這裏要引入"前綴"和"後綴"的概念（這個很重要），

　　（1）前綴：指除了最後一個字符以外，一個字符串的全部頭部組合；

　　（2）後綴：指除了第一個字符以外，一個字符串的全部尾部組合；

　　（3）部分匹配值：就是"前綴"和"後綴"的最長的共有元素的長度，如以字符串"ABCDABD"爲例：

　　－ "A"的前綴和後綴都爲空集，共有元素的長度爲0；

　　－　"AB"的前綴爲[A]，後綴爲[B]，共有元素的長度爲0；

　　－　"ABC"的前綴爲[A, AB]，後綴爲[BC, C]，共有元素的長度0；

　　－　"ABCD"的前綴爲[A, AB, ABC]，後綴爲[BCD, CD, D]，共有元素的長度爲0；

　　－　"ABCDA"的前綴爲[A, AB, ABC, ABCD]，後綴爲[BCDA, CDA, DA, A]，共有元素爲"A"，長度爲1；

　　－　"ABCDAB"的前綴爲[A, AB, ABC, ABCD, ABCDA]，後綴爲[BCDAB, CDAB, DAB, AB, B]，共有元素爲"AB"，長度爲2；

　　－　"ABCDABD"的前綴爲[A, AB, ABC, ABCD, ABCDA, ABCDAB]，後綴爲[BCDABD, CDABD, DABD, ABD, BD, D]，共有元素的長度爲0。

3.下面開始具體解析KMP：

假設主串S的長度爲n，模式串P的長度爲m，i爲主串S當前位置的指針，j爲模式串P當前位置的指針：

　　S₀.....S_i-jS_i-j+1S_i-j+2.......S_i-2S_i-1...........S_n

　　　　 P₀ P₁ P₂...............P_j-2P_j-1　

即：S_i-jS_i-j+1S_i-j+2...S_i-1=P₀ P₁ P₂...P_j-2P_{j-1 （1-1）}

當S_i!=P_j時i不動，模式串P向右移動多少個字符最正確（即要保證不會漏掉可能的匹配或不會重複不必要的匹配過程）

如果P本身的每一個字符都不相同，那麼就可以直接將模式串P向右移動j個字符，道理很簡單因爲P₀!=P₁!=P₂...!=P_j-1，由上面等式（1-1）可知P₀也不等於S_i-jS_i-j+1S_i-j+2.......S_i-2S_i-1中的任何一個，所以可以直接從P_0開始和S_i進行下一輪比較（指針i不需要回溯，指針j回溯到模式串的起始位置）。

但是如果模式串P存在很多重複的字符如：abcabcabd這種情況時就不能直接將j指針移動到P₀了，例如主串爲fffffabcabcabcabcabdfffff時

　　　　　　 fffffabcabcabcabcabdfffff

　　　　　　　　 abcabcabd

　　　　　　　　　　　　　 ↑ 發現 c != d 即 S_i!= P_j

此時應該怎麼移動呢？如果直接將j移動到P₀然後和S_i比較則會出現漏掉匹配的情況即匹配結束後找不到匹配串，正確的做法是將j—>P₅位置(相當於向右滑動3個位置)然後和S_i繼續比較，如下所示：

　　　　　　 fffffabcabcabcabcabdfffff

　　　　　　　　 abcabcabd

爲什麼是移動到P₅呢？這個P₅是怎麼來的？這個就是整個算法的關鍵點，理解了這一點也就理解了KMP算法的本質。

其實這個5就是P_j-1的部分匹配值k，移動字符個數=j-k=8-5=3（j=8,k=5）

根據上面字符串部分匹配值的定義可知當j=8時P₀P₁...P_j-1等於字符串abcabcab，該字符串的前綴和後綴的最長共有元素的長度爲5，即abcabca和bcabcab重疊的部分最大長度爲5。

那麼這是什麼原理呢?爲什麼P₀P₁...P_j-1的部分匹配值就是模式P在位置j失配時重新開始匹配的位置呢？爲什麼不需要回溯i指針及完全回溯j指針到P₀，卻不會出現漏掉匹配或者怎麼能確保這種情況下是沒有進行不必要的重複匹配呢？

下面去看分析：

當在j位置失配時有 P_j!= S_i且等式 S_i-jS_i-j+1S_i-j+2...S_i-1=P₀ P₁ P₂...P_j-2P_j-1必定成立

又由字符串部分匹配值的定義可知P₀P₁...P_k-1=P_j-kP_j-k+1...P_j-1,上面的列子中即P₀P₁P₂P₃P₄=P₃P₄P₅P₆P₇(j=8,k=5)

因爲：P_j-kP_j-k+1...P_j-1=S_i-kS_i-k+1...S_i-1，所以P₀P₁...P_k-1=S_i-kS_i-k+1...S_i-1

前綴和後綴的最長共有元素的意思就是說當y>k時不可能存在P_j-_yP_j-_y+1...P_j-1=P₀P₁P₂...P_j-y-1(這裏是關鍵，y就是該字符串的某一個前綴和後綴的長度，k是該字符串的部分匹配值，所以不可能存在一個y>k使得等式成立)，只有當y=<k時等式纔會成立；因此可以推斷出：

P₀P₁P₂...P_j-y-1和S_i-j+1S_i-j+2S_i-j+3...S_i-1進行匹配時前面j-k次都不會匹配成功，這就是KMP算法中當失配時直接將模式串P向右滑動k個字符的原理。

模式串P的部分匹配值表怎麼求，下篇博文裏面再詳細說明，其實關鍵點還是前綴和後綴以及部分匹配值的問題，把這個搞懂了就都懂了。

具體實現：


public class KMP {

	void getNext(String pattern, int next[]) {
		int j = 0;
		int k = -1;
		int len = pattern.length();
		next[0] = -1;

		while (j < len - 1) {
			if (k == -1 || pattern.charAt(k) == pattern.charAt(j)) {

				j++;
				k++;
				next[j] = k;
			} else {

				// 比較到第K個字符，說明p[0——k-1]字符串和p[j-k——j-1]字符串相等，而next[k]表示
				// p[0——k-1]的前綴和後綴的最長共有長度，所接下來可以直接比較p[next[k]]和p[j]
				k = next[k];
			}
		}

	}

	int kmp(String s, String pattern) {
		int i = 0;
		int j = 0;
		int slen = s.length();
		int plen = pattern.length();

		int[] next = new int[plen];

		getNext(pattern, next);

		while (i < slen && j < plen) {

			if (s.charAt(i) == pattern.charAt(j)) {
				i++;
				j++;
			} else {
				if (next[j] == -1) {
					i++;
					j = 0;
				} else {
					j = next[j];
				}

			}

			if (j == plen) {
				return i - j;
			}
		}
		return -1;
	}

	/**
	 * @param args
	 */
	public static void main(String[] args) {
		// TODO Auto-generated method stub
		KMP kmp = new KMP();
		String str = "abababdafdasabcfdfeaba";
		String pattern = "abc";
		System.out.println(kmp.kmp(str, pattern));
	}

}

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

KMP算法（字符串匹配算法）詳解及java實現

再談23種設計模式（3）：行爲型模式（學習筆記）

Power Automate Desktop 安裝完，登錄後老是提示one driver 錯誤

微前端學習筆記(4):從微前端到微模塊之EMP與hel-micro方案探索

微前端學習筆記（1）：微前端總體架構概述，從微服務發微

985 碩士程序員，空窗 4 個月沒有 Offer！

一文搞懂 Spring 循環依賴

賽博鬥地主——使用大語言模型扮演Agent智能體玩牌類遊戲。

VScode右鍵打開(添加到右鍵)

記一次 .NET某工控視覺自動化系統卡死分析

WindowsServer--SQL Server搭建主從同步實現讀寫分離 - 事務性分發

滑雪算法（貪心算法）的java和c的實現

java將文件夾中的多個文件（包含子文件夾）壓縮成zip文件

java修飾符的訪問權限

java各種文件（xml、properties、txt）處理操作的一道題目

性能調優攻略

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結