面試必考字符串相關的動態規劃——最大公共子序列、最大公共子串、編輯距離


簡述這三個算法解決的問題和展示狀態轉移方程並且給出可通過執行的Python代碼。

最大公共子序列

子序列是,一個字符串中的任意字符組成的序列,重點在於,不要求子序列是原字符串的連續序列。
如下例子所示,acgabcdefg的子序列,但不是連續子序列。

		abcdefg ==> acg

兩個字符串的最大公共子序列的狀態轉移方程式如下:

dp[i][j]={max{dp[i1][j],dp[i][j1]}if s1[i]!=s2[j]dp[i][j]+1if s1[i] =s2[j]dp[i][j]= \begin{cases} max\{dp[i-1][j],dp[i][j-1]\}& \text{if s1[i]!=s2[j]}\\ dp[i][j]+1& \text{if s1[i] =s2[j]} \end{cases}

實現的代碼如下所示:

def longestCommonSubsequence(text1: str, text2: str) -> int:
    m = len(text1)
    n = len(text2)
    if m * n == 0:
        return 0
    dp = [[0]*(n+1) for _ in range(m+1)]
    for i in range(1, m+1):
        for j in range(1, n+1):
            if text1[i-1] != text2[j-1]:
                dp[i][j] = max(dp[i-1][j], dp[i][j-1])
            else:
                dp[i][j] = dp[i-1][j-1] + 1
    return dp[-1][-1]

最大公共子串

子串則是嚴格連續的字符串,具體的例子可以如下所示:

	abcdefg ==> abc

則可以認爲 abcabcedfg的子串,但是aeg不是。

兩個字符串的最大公共子串的狀態轉移方程爲:

dp[i][j]={0if s1[i]!=s2[j]dp[i][j]+1if s1[i] =s2[j]dp[i][j]= \begin{cases} 0& \text{if s1[i]!=s2[j]}\\ dp[i][j]+1& \text{if s1[i] =s2[j]} \end{cases}

具體的python代碼爲:

def findLength(A: List[int], B: List[int]) -> int:
    m =len(A)
    n = len(A)
    if m * n == 0:
        return 0
    max_len = 0
    dp = [[0]*(n+1) for _ in range(m+1)]
    for i in range(1, m+1):
        for j in range(1, n+1):
            if A[i-1] != B[j-1]:
                dp[i][j] = 0
            else:
                dp[i][j] = dp[i-1][j-1] + 1
            max_len = max(max_len, dp[i][j])
    return max_len

編輯距離

編輯距離是針對,兩個字符串A,B進行計算將A轉變爲B所需的最小操作次數。

一次操作可以是插入刪除替換

兩個字符串的編輯距離的狀態轉移方程爲:

dp[i][j]={max{dp[i1][j]+1,dp[i][j1]+1,dp[i1][j1]+1}if s1[i]!=s2[j]max{dp[i1][j]+1,dp[i][j1]+1,dp[i1][j1]}if s1[i] =s2[j]dp[i][j]= \begin{cases} max\{dp[i-1][j]+1,dp[i][j-1]+1,dp[i-1][j-1]+1\}& \text{if s1[i]!=s2[j]}\\ max\{dp[i-1][j]+1,dp[i][j-1]+1,dp[i-1][j-1]\}& \text{if s1[i] =s2[j]} \end{cases}

具體的python代碼如下:

def edit_distance(word1,word2):
	n = len(word1)
	m = len(word2)
	if n*m == 0:	#有一個字符串爲空
		return n+m
	d = [[0]*(m+1) for _ in range(n+1)]
	for i in range(n+1):
		d[i][0] = i
	for j in range(m+1):
		d[0][j] = j
	for  i in range(1,n+1):
		for j in range(1,m+1):
			right = d[i][j-1] + 1	# 插入
		 	down = d[i-1][j] + 1	# 刪除
		 	right_down = d[i-1][j-1]	# 替換
		 	if word1[i-1] != word2[j-1]:
		 		right_down += 1
		 	d[i][j] = min(right, down, right_down)
	return d[n][m]
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章