文章簡介:
- 文章標題:Efficient Graph Similarity Joins with Edit Distance Constraints
- ppt鏈接
- 文章鏈接
- 作者單位:新南威爾士大學,悉尼,澳大利亞
- 文章來源:ICDE 2012
正文
文章摘要:
在生物信息學,化學,社交網絡,模式識別等許多應用中,圖形被廣泛用於建模複雜的數據語義。最近的趨勢是容忍各種來源(例如錯誤的數據輸入)產生的噪聲並找到相似性匹配項。
在本文中,我們研究具有編輯距離約束的圖相似性查詢。
受q-gram思想解決字符串相似性問題的啓發,我們的解決方案從圖提取路徑作爲索引特徵。 我們確定通用特徵的下限以生成候選對象。 提出了一種有效的算法,通過利用匹配和不匹配特徵以及程度信息來處理三種類型的圖相似性查詢,以改善對候選者的過濾和驗證。
我們通過對真實和合成數據集進行廣泛的實驗,證明了所提出的算法明顯優於現有方法。
以前方法的不足
k-at樹:
star:
過濾下界:
文章句法:
The algorithm takes as input a collection of graphs, and follows an index nested loop join style, maintaining an in-memory inverted index on-the-fly.
該算法將圖形集合作爲輸入,並遵循索引嵌套循環聯接樣式,從而即時維護內存中的反向索引。
基於路徑的q-gram和基於樹的q_gram(又叫做k-AT)的不同之處在於,K-AT樹是通過一個頂點的深度優先的層數而定的,基於路徑的q-gram是根據圖中的倆個點之間的路徑定的。一個編輯距離的操作對於基於路徑的q-gram的影響較小,因爲只會影響其中部分的g-gram,但是對於K-AT樹,會影響全部的g-gram。比如修改圖中的碳元素C1的值,K-AT樹的全部分支都會被影響,但是在基於路徑的q-gram中,碳元素2和3不會被影響,因爲它們在和碳元素1分開的q-gram中。這種優點會保持圖的結構信息。