《Keyword Search over RDF Graphs》——讀書筆記

最大的問題!terms和triples的區別!?

ABSTRACT

知識庫中的實體和關係非常重要,但是主要以RDF形式存儲,需以結構化的語言查詢,如SPARQL。但是結構化的查詢對查詢者要求較高,使得資源難以被利用,關鍵詞查詢顯得非常有必要。本文設計了在RDF圖上進行關鍵字查詢的檢索模型,檢索出匹配關鍵字的一系列子圖並排序。

INTRODUCTION

現在的知識庫被表示爲RDF圖,點——實體,邊——關係。
結構化的查詢不方便,所以使用關鍵詞查詢。輸入關鍵詞,返回排序的RDF子圖列表。查詢子圖可以同時考慮關係和實體。
RDF查詢通過連接的三元組進行查詢,但是需要用戶對底層數據和查詢語言比較瞭解。
本文開發了使用關鍵詞對RDF搜索的檢索模型。輸入關鍵詞,輸出排序後的子圖。檢索子圖比檢索實體好在於能夠充分利用關鍵詞的信息,可以考慮實體間的關係。把每個三元組與一系列來源於主謂賓的關鍵詞關聯起來。爲了檢索出關鍵詞查詢的所有子圖,我們使用了回溯法。基於全局的統計出信息對檢索結果進行排序。

RELATED WORK

在結構化數據上的關鍵詞搜索工作分爲兩部分,
一是把關鍵詞匹配到一個或多個結構化查詢中,比如,文獻27假定關鍵詞查詢是結構化三元組查詢的含蓄表達,它使用RDF圖推斷結構化的查詢,並找出最相關的幾個。這種方法涉及到用戶交互,另外收到信息丟失現象的影響。文獻18通過NLP工具處理用戶問題推斷最有可能的結構查詢,和文獻27一樣會出現信息丟失。
二,該方法通過直接檢索關鍵詞查詢的結果,克服了前述問題。在XML數據上的關鍵詞查詢屬於此類。XKSearch[29]返回包含了查詢關鍵詞的節點及其父節點。XKSearch [29] returns a set of nodes that contain the query keywords either in their labels or in the labels of their descendant nodes and have no descendant node that also contains all keywords. XRank 返回包含了所有查詢關鍵詞的elements。但是所有的方法都基於樹形結構並不能直接應用與圖形結構的RDF圖。
與我們工作最相近的是[14]中在XML數據上關鍵詞查詢的語言模型方法。作者假定關鍵詞查詢與XML元素中的關鍵詞有着對應。他們的排序基於[20]提出的等級語言模型。
但是XML數據的檢索但願是一個XML文檔(子樹),但在RDF我們感興趣的是符合用戶查詢的子圖排序。子圖在檢索中確定,因此大部分的關於XML IR的工作並不適用。
圖上的關鍵詞查詢返回斯坦納樹的有序列表,其排序方式一般基於結果的結構,或者基於一些特徵的組合——使用基於內容的方式,如tf-idf,或language models.
文獻[19]中基於LM的模型對實體的排序結合了結構和內容。該模型只考慮了實體,本文同時考慮了實體和關係。另外它假設文檔與每個文檔或實體相關聯,但在RDF中通常不是這樣。
The Semantic Search Challenge爲RDF圖上的關鍵詞查詢提供了benchmark,但實體的判斷基準是通過組裝有着同樣subject的三元組。表現最好的[3]對實體排序使用了BM25F和手工信息結合的方法。相對的,我們檢索匹配查詢關鍵詞的子圖並排序他們。

3. SYSTEM OVERVIEW

爲了能夠處理關鍵詞查詢,我們爲每個三元組ti 都創建了一個虛擬文檔DiDi 包含了從三元組的主謂賓以及與其相關的文本信息中抽取的關鍵詞。還找出文檔中的術語,存儲到倒置列表,並保存其頻率。
對於一個關鍵詞查詢,我們利用倒序列表檢索出所有的匹配三元組。然後爲了使用一個或多個三元組檢索,我們連接來自不同列表中的三元組。然而,我們只使用來自不同list的三元組構建子圖,這對應着不同的關鍵詞。
該方法背後的思路:認爲用戶的信息需求可以表示爲一系列的三元組,但是,因爲用戶並不能直接輸入三元組,故使用關鍵詞。我們認爲每個關鍵詞都可以代表一個三元組,所以查詢結果是一個子圖。
但是關鍵詞的查詢帶來了歧義對於結果排序非常重要。爲了提供有效的排名,系統必須推斷出用戶想要的查詢,並根據子圖的匹配程度排序。

4. SUBGRAPH RETRIEVAL

子圖檢索:

  • The subgraphs should be unique and maximal.
  • The subgraphs should contain triples matching different sets of keywords.
    給定一個查詢q={q1,q2,...,qm} ,其中qi 是一個關鍵詞,我們利用倒序列表(inverted index)檢索出{L1,L2,...,Lm} 其中Li 是匹配qi 的所有三元組。E 是所有列表的並集。A(ti) 包含邊ti 的所有在其他tj 所屬的Lj 內的鄰邊。
    這裏寫圖片描述
    算法1循環找出所有邊t 的鄰接列表。算法2輸入的子圖和其鄰居,並嘗試爲子圖增加邊。第三行的條件確保了只有其他list中的邊才能被擴展——property 2。L(G) 返回子圖G所屬的lists的邊。NEIGHBORS(t,G) 檢索屬於t而不屬於G的所有鄰居。MAXIMAL(G) 確保檢索的子圖是unique and maximal。

5. RANKING MODEL

排序模型基於statistical language-models (LMs)。給定一個查詢Q={q1,q2,...,qm} (其中qi 是一個single term)與一個子圖G={t1,t2,...,tn} (其中tj 是一個三元組),我們對子圖G排序基於query likelihood或者在給定子圖的LM後生成Q的可能性。query likelihood P(Q|G) 的計算如下:

P(Q|G)=i=1mP(qi|G)

其中P(qi|G)qi 在G的LM中的可能性。
P(qi|G)=j=1n1nP(qi|tj)

也就是說,term qi 在子圖LM的可能性是他在三元組LM可能性的平均。因爲不止一個G中的三元組可以和關鍵詞qi 匹配,因此採用平均值。三元組tj 的LM可以直接計算,因爲每個三元組都有一個虛擬文檔。但是這種方法忽略了三元組的結構並且吧每個三元組當做bag-of-words。

在我們的排序模型中,我們考慮三元組的結構。我們認爲關鍵詞查詢是模糊的結構化三元組查詢。因此,關鍵詞qi 在三元組ti 的lM中的可能性P(qi|tj) 改爲P(qi|Dj,rj) 。也就是說該概率不僅依賴tj 的文檔,還依賴於謂詞。

P(qi|Dj,rj)=P(qi|Dj)P(rj|qi,Dj)P(rj|Dj)

另外,我們把P(rj|qi,Dj) 作爲兩項的線性組合。
P(rj|qi,Dj)=βP(rj|qi)+(1β)P(rj|Dj)

第一項是指謂詞rj 與關鍵詞qi 的相關度,第二項是tj 的謂詞是rj 的可能性。因爲RDF知識庫並不普遍存在P(rj|Dj) 這個值,所以我們默認該值爲1。
將上面兩式合併得
P(qi|Dj,rj)=βP(qi|Dj)P(rj|qi)+(1β)P(qi|Dj)()

其中,P(qi|Dj) 是從三元組文檔Dj 產生qi 的可能性。在利用collection probability進行平滑後,可以使用最大似然估計。
P(q_i|D_j)=\alpha \frac{c(q_i,D_j)}{|D_j|}+(1-\alpha)\frac{c(q_i,Col)}{|Col|} \qquad (#)

其中c(w,Dj) 是term w在文檔Dj 中的頻率,|Dj| 是文檔Dj 的長度(即所有term的頻率之和)。Col 是通過連接數據庫中三元組文檔得到的集合。α 是平滑因子,並根據Dirichlet prior smoothing設置。
爲了確定(*)式中的P(rj|qi) ,爲每個謂詞rj 構建了文檔Rj 保存有該謂詞的所有三元組。現在P(rj|qi) 轉化爲P(Rj|qi)
P(Rj|qi)=P(qi|Rj)P(Rj)P(qi)=P(qi|Rj)P(Rj)ΣkP(qi|Rk)P(Rk)

其中P(w|Rj) 是在給定文檔Rj 上generate the term w的概率如同(#)式中利用極大似然估計。P(Rj) R_j$與任何term相關的概率。

6. EXPERIMENTAL EVALUATION

6.1 Setup

這裏寫圖片描述
本文的檢索模型假設每個三元組都有一個文檔,該文檔來自於三元組的實體和關係中的代表詞。關係的代表詞手動產生因爲數據集小沒有太多的關係。
由於缺乏針對RDF數據的關鍵字搜索的query benchmark,我們必須創建一個benchmark並收集相關性評估。
benchmark包含一組結構化查詢,可能會增加關鍵詞,以及其描述。我們抽取了30個查詢,每個數據集15個,使用一組關鍵字來表示每個查詢。每個查詢彙總50個結果,並且使用至少4個不同的人來收集的每個結果的相關性評估。
自己的方法Structured LM approach對比的baseline:

  1. a baseline language-modeling approach(Baseline LM)
  2. the Web Object Retrieval Model(WOR)
  3. the BANKS system

因爲這三個能夠用關鍵字搜索結構化數據,Section 2部分的其餘方法並不適用,因此略去。

6.2 Relevance Assessments

對每個評估查詢,我們對4個模型分別檢索取前50個結果。然後,將查詢結果和查詢描述彙總給13位human judges。對於WOR檢索的結果提供Wikipedia的鏈接,其他的僅提供子圖。
我們對於每個結果讓四名judges對結果評價,評價分爲四檔。judges的卡帕係數Library-Thing dataset 0.449; IMDB 0.542.
We obtained a Kappa coefficient of 0.397 for LibraryThing and 0.671 for IMDB which are in line with the numbers reported for standard TREC evaluation campaigns. For instance, the TREC legal track for 2006 reports a Kappa value of 0.49 on 40 queries, the opinion detection task in 2009 reports a Kappa value of 0.34, and the TREC 2004 Novelty track reports a value of 0.54 for sentence relevance.

6.3 Evaluation Results

Overall Evaluation. NDCG:Normalized Discounted Cumulative Gain.
這裏寫圖片描述
Training Results.一個數據集用作訓練,另一個用作測試。調整βorλ 的值。
Cross-Validation Results.一次交叉驗證,每個數據集的15個查詢中14個用作訓練,剩下的用作測試。結果仍然是Structured LM方法最好。

7. CONCLUSION

We proposed a retrieval model for keyword queries over RDF graphs. Our retrieval model adopts backtracking algorithms to retrieve subgraphs matching the query keywords. Our model provides a result ranking based on a novel structure-aware languagemodeling approach. We have shown through a preliminary, yet comprehensive user-study that our retrieval model outperforms wellknown techniques for keyword search over structured data.

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章