Edit Distance相似度算法

先給一個例子,兩個字符串eeba和abca相似度是多少呢,edit distance是一個很好的度量,定義從字符串a變到字符串b,所需要的最少的操作步驟(插入,刪除,更改)爲兩個字符串之間的編輯距離。

image

對於eeba,abca它們之間的編輯距離爲3,可以按照上面的操作步驟(不是唯一的)將eeba變到abca,1.將e變爲a 2.刪除e 3.添加c 共3個步驟。

典型的動態規劃問題。

image

EDIT[i,j]表示對於字符串a從1到i的子串和字符串b從1到j的字串的編輯距離。(字符串下標從1開始)

EDIT[i - 1,j] + 1表示對a 在i 位置刪除delete操作

EDIT[i,j - 1] + 1 表示insert添加操作

EDIT[i-1, j - 1] + f(x[i],y[j])這裏如果x[i] == y[j] 則 f(x[i],y[j]) == 0 否則 ==1

表示不變或者是modify操作。

如果需要記錄編輯過程如第一幅圖所示,需要用二維數組記錄下動態規劃過程的路徑信息,即記錄下前一步驟的位置索引信息。

如下圖

image

image

class Solution {
public:
    int minDistance(string word1, string word2) {
        // Start typing your C/C++ solution below
        // DO NOT write int main() function
        int row = word1.length() + 1;
        int col = word2.length() + 1;
        
        vector<vector<int> > f(row, vector<int>(col));

        for (int i = 0; i < row; i++)
            f[i][0] = i;

        for (int i = 0; i < col; i++)
            f[0][i] = i;

        for (int i = 1; i < row; i++)
            for (int j = 1; j < col; j++){
                if (word1[i-1] == word2[j-1])
                    f[i][j] = f[i-1][j-1];
                else
                    f[i][j] = f[i-1][j-1] + 1;
                f[i][j] = min(f[i][j], min(f[i-1][j]+1, f[i][j-1]+1));
            }

        return f[row-1][col-1];
    }
};
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章