先給一個例子,兩個字符串eeba和abca相似度是多少呢,edit distance是一個很好的度量,定義從字符串a變到字符串b,所需要的最少的操作步驟(插入,刪除,更改)爲兩個字符串之間的編輯距離。
對於eeba,abca它們之間的編輯距離爲3,可以按照上面的操作步驟(不是唯一的)將eeba變到abca,1.將e變爲a 2.刪除e 3.添加c 共3個步驟。
典型的動態規劃問題。
EDIT[i,j]表示對於字符串a從1到i的子串和字符串b從1到j的字串的編輯距離。(字符串下標從1開始)
EDIT[i - 1,j] + 1表示對a 在i 位置刪除delete操作
EDIT[i,j - 1] + 1 表示insert添加操作
EDIT[i-1, j - 1] + f(x[i],y[j])這裏如果x[i] == y[j] 則 f(x[i],y[j]) == 0 否則 ==1
表示不變或者是modify操作。
如果需要記錄編輯過程如第一幅圖所示,需要用二維數組記錄下動態規劃過程的路徑信息,即記錄下前一步驟的位置索引信息。
如下圖
class Solution { public: int minDistance(string word1, string word2) { // Start typing your C/C++ solution below // DO NOT write int main() function int row = word1.length() + 1; int col = word2.length() + 1; vector<vector<int> > f(row, vector<int>(col)); for (int i = 0; i < row; i++) f[i][0] = i; for (int i = 0; i < col; i++) f[0][i] = i; for (int i = 1; i < row; i++) for (int j = 1; j < col; j++){ if (word1[i-1] == word2[j-1]) f[i][j] = f[i-1][j-1]; else f[i][j] = f[i-1][j-1] + 1; f[i][j] = min(f[i][j], min(f[i-1][j]+1, f[i][j-1]+1)); } return f[row-1][col-1]; } };