05.KMP算法之深度解析(二)

原創

2020-07-05 22:19

	0	1	2	3	4	5	6	7	8	9	10
S:	a	b	c	a	b	a	b	c	a	b	x
P:	a	b	c	a	b	x
多餘		a	b	c	a	b	x
多餘			a	b	c	a	b	x
				a	b	c	a	b	x
					a	b	c	a	b	x
匹配						a	b	c	a	b	x
KMP算法：
				a	b	c	a	b	x
匹配：						a	b	c	a	b	x

因爲第一次匹配時，在S[5] != P[5]（a != x）處失配，按照暴力匹配算法，此時應判斷S[1] 與P[0]是否相等，發現不相等，則繼續判斷S[2]與P[0]，發現不相等，則繼續判斷S[3]與P[0]，發現相等，判斷S[4]與P[1]是否相等。其實以上4步完全是多餘的
多餘的原因：在第一次匹配時，我們已經知道S[0]-S[4]與模式串P的部分匹配關係（P[0]-P[4]）即：S[5]之前的都已經知道和模式串P的匹配關係了，不需要重寫回溯S來判斷了，因爲abcab的最大前後綴匹配個數爲2，即：S的後綴：S[3]-S[4]與P的前綴P[0]-P[1]是匹配的，則只需要從P[2]與S[5]開始判斷即可（如果字符串不存在前後綴匹配，則從P[0]開始匹配，例如ab的最大前後綴匹配個數爲0，則判斷S[5]與P[0]是否相等，相等，則i++，j++繼續向後匹配

	0	1	2	3	4	5	6	7	8	9	10
S:	a	a	a	a	b	c	d	e	f
P:	a	a	a	a	a	x
多餘		a	a	a	a	a	x
多餘			a	a	a	a	a	x
多餘				a	a	a	a	a	x
多餘					a	a	a	a	a	x
						a	a	a	a	a	x
KMP改進：
	a	a	a	a	a	x
						a	a	a	a	a	x

第一次匹配，S[4] !=P[4]，此時應用KMP算法，應將S[4]與P[3]比較，但是因爲P[3]=P[4]，所以S[4]與P[3]的比較是多餘的，我們已經知道他們的大小關係。同理，P[2]、P[1]、P[0]與S[4]的比較都是多餘的。
next值的含義：找到模式串中的一個位置k，使得P[k]的值與剛纔失配的S值比對，以此省略大多數沒有用的步驟。但是我們不希望找到的這個P[k]的值和P[j]的值相等，因爲我們知道P[j]與失配處的S的關係。
所以，當P[j] == P[next[j]]時，我們應該找P[next[j]]的下一個next值對應的P值來與剛纔失配的S進行匹配。

KMP算法的核心：通過利用已經匹配了的P的信息，來儘可能的減少沒有必要的步驟，通過P的信息可以知道下面有多少步驟是可以直接省略的，也就是知道，下面有多少步驟的匹配關係是已知的。

一個字符串，前綴、後綴相等的個數的意義是什麼？

abcabx

最大前綴、後綴匹配個數：2（與字符串的最後兩位纔有可能匹配）
存在的前綴、後綴匹配個數：2

	a	b	c	a	b	x失配的地方
一定不匹配		a	b	c	a	b	y
一定不匹配			a	b	c	a	b	y
可能匹配（y!=c，所以c匹不匹配不知道）				a	b	c	a	b	y

aaaaax

最大前綴、後綴匹配個數：4（與字符串的最後4位纔有可能匹配）
存在的前綴、後綴匹配個數：1、2、3、4
從匹配個數最多的開始找，順序爲：4、3、2、1

	a	a	a	a	a	x
可能匹配（a!=y，所以匹不匹配不知道）		a	a	a	a	a	y
一定不匹配（已知a不匹配了，而下一個next值對應的又是a，顯然不匹配）			a	a	a	a	a	y
一定不匹配				a	a	a	a	a	y
一定不匹配					a	a	a	a	a	y
一定不匹配						a	a	a	a	a	y

改進的KMP：直接跳到next爲-1							a	a	a	a	a	y

因爲P[j]的next對應的值等於P[j]，而我們的目的是匹配我們不知道的P。所以我們要繼續尋找下一個next值，直到找到不等於P[j]爲止，或者找到的P爲P[0]爲止。（此處找next的過程爲一個遞歸的過程）

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

數據結構之線性表：單鏈表（王道2021習題算法實現及測試）

#include <iostream> #include<algorithm> #include<cstdio> using namespace std; typedef int ElemType; typedef struct LN

Sunshine_victory

2020-07-06 23:15:54

05.一文詳解KMP算法(一)

空格串：是隻包含空格的串，空格串有內容和長度，而且可以不止一個空格。空串：零個字符的串。子串：串中任意個數的連續字符組成的子序列。串的比較：取決於它們挨個字母的前後順序通過組成串的字符之間的編碼來進行（

2020-07-05 22:19:53

02.什麼是算法?(算法的時間複雜度分析)

算法是解決特定問題求解步驟的描述，在計算機中表現爲指令的有限序列，並且每條指令表示一個或多個操作 2.1兩種算法的比較求：一個1+2+3+…+100 # O(n) n = 1 sum = 0 while n <= 100:

2020-07-05 22:19:52

03.線性表的順序存儲結構(一)

線性表的抽象數據類型 ADT 線性表(List) Data 線性表的數據對象集合爲{a1,a2,...an}，每個元素的類型均爲DataType。其中除第一個元素a1外，每一個元素有且只有一個直接前驅元素，除了最後一個元素

2020-07-05 22:19:52

03.靜態鏈表(三)

對象引用機制，從某種角度也間接實現了指針的某些作用。用數組來代替指針，來描述單鏈表首先我們讓數組的元素都是由兩個數據域組成，data和cur。也就是說，數組的每個下標都對應一個data和一個cur。數據域da

2020-07-05 22:19:52

03.循環鏈表(四)

將單鏈表中終端結點的指針端由空指針改爲指向頭結點，就使整個單鏈表形成一個環，稱爲循環鏈表。循環鏈表解決了一個很麻煩的問題：如何從當中一個結點出發，訪問到鏈表的全部結點。爲了使空鏈表與非空鏈表處理一致，通常設一個頭

2020-07-05 22:19:52

01.什麼是數據結構？(ADT)

數據結構：相互之間存在一種或多種特定關係的數據元素的集合程序設計=數據結構+算法 1.1數據數據：描述客觀事物的符號。包括：數值類型（整型等）、非數值類型（字符、聲音、圖像、視頻等）。數據是數據元素的集合例如：人類、禽類

2020-07-05 22:19:52

03.雙向鏈表(五)

在單鏈表中，有了next指針，這就使得我們要查找下一結點的時間複雜度爲O(1)。可是如果我們要查找的是上一結點，那最壞時間複雜度就是O(n)。因爲我們每次都要從頭開始遍歷查找。爲了克服單向性這一缺點，設計雙向鏈表，即設置一個指向

2020-07-05 22:19:52

03.線性表的鏈式存儲結構(二)

數據元素可以存在內存未被佔用的任意位置。除了存數據元素信息外，還要存儲它的直接後繼元素的存儲地址。數據元素aia_iai的存儲映像，稱爲結點(Node)：數據域、指針域（指針or鏈）結點由存放數據元素的數據

2020-07-05 22:19:52

hdu 5057 Argestes and Sequence

Argestes and Sequence Time Limit: 5000/2500 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Others) Total Submi

2020-07-04 16:54:56

數據結構之線性表：單鏈表的實現

#include <iostream> #include<algorithm> #include<cstdio> using namespace std; typedef int ElemType; typedef struct LN

Sunshine_victory

2020-07-03 07:37:41

數據結構之線性表：順序表的實現

#include <cstring> #include <string> #include <cstdio> #include <algorithm> #include <iostream> using namespace std;

Sunshine_victory

2020-07-03 07:37:41

P53.2.(3)將兩個遞增的有序鏈表合併爲一個遞增的有序鏈表。要求結果鏈表仍使用原來兩個鏈表的存儲空間, 不另外佔用其它的存儲空間。表中不允許有重複的數據。

一把辛酸淚啊。。。。。。本人之前用的是DEVC++，可能是本人太菜，把這個編譯器給整出問題了，一直給我報錯，我就把它給卸載了，滿以爲換上了宇宙第一IDE就會過上幸福快樂的生活，沒想到是噩夢的開始。。。。。。。可能是本人太菜用VS2010時

wooo……小老弟！

2020-07-02 12:46:55

P109.3.(1)寫一個算法統計在輸入字符串中各個不同字符出現的頻度並將結果存入文件（字符串的合法字符爲A~Z這26個字母和0~9這10個數字）

#include <iostream> #include <stdlib.h> using namespace std; int main() { int times[36]; char ch; int num; for(i

wooo……小老弟！

2020-07-02 12:46:44

雙棧操作的函數

#include <stdio.h> const int TRUE = 1; const int FALSE = 0; typedef int SElementType; typedef struct { int top[2];

wooo……小老弟！

2020-07-02 12:46:44

24小時熱門文章

lightdb hash index的性能和限制

最新文章

最新評論文章