隨機性偏差模型(DFR)介紹

第一次翻譯文章,可能有不少錯誤,但是希望可以對原文閱讀起到幫助。


隨機性偏差模型 (DFR) 是信息檢索的最早模型之一,哈特的 2-泊松索引-模型 [1] 的最早模式之一。2-泊松模型基於在一系列的具有價值的文檔所提供的詞語,這些詞語在相關文檔中發生的概率比在不相關文檔中發生的概率更高。

另一方面,有一些詞語不包含於關鍵的文檔,所以他們的頻率遵循隨機分佈,是單一的泊松模型。哈特的模型中,首先作爲檢索模型由Robertson, Van Rijsbergen and Porter 探討[4]。先後它由Robertson和Walker [3] 與標準概率模型結合,催生 了一系列BMs IR 模型 ,其中有知名的 BM25 這是霍加狓系統(Okapi system)的基礎。
DFR 模型通過實例化框架的三個組成部分︰ 選擇基本隨機性模型、 應用第一次的正常化、 規範化詞的頻率。

基礎隨機模型(Basic Randomness Models)

DFR模型基於這樣一個假設:“在相關文檔中詞頻的頻率在集合中更加發散,在文檔d中詞語t攜帶的信息更多”。換而言之,在包含隨機模型M的文檔中,d詞語的重要程度與它出現的頻率反相關。

這裏寫圖片描述公式(1)

這裏的下標 M 代表用來計算概率的隨機性模型的類型。爲了選擇合適的模型 M 的隨機性,我們可以使用不同的罐子模型( urn models)。IR 被視爲一個隨機的過程,它使用隨機從罐子裏面取出圖紙的模型或等價地隨機放置綵球到罐子裏面的模型。在這裏我們使用文檔代替罐子,使用詞語代替綵球。每個詞語,在該罐子一些多樣性的發生是由於一些相關的詞或短語被稱爲這個詞的標記。現在有很多選擇模型M的方法,這些都可以衍生基礎的DFR模型。基礎的模型由下表導出:

這裏寫圖片描述

如果模型M是二項式分佈,基礎的模型記做p,並且計算的值如下:
這裏寫圖片描述公式(2)

其中參數含義如下:

  • TF 是詞語 t 在集合中的頻率
  • tf 是詞語 t 在文檔 d 中的頻率
  • N 是集合中文檔中的數量
  • p=1/N 並且 q=1-p

相同的如果模型M是幾何分佈,基礎模型記做G,並且計算的值如下:
這裏寫圖片描述公式(3)

其中參數含義如下:

  • λ=F/N

第一次的正常化(First Normalisation)

當文檔中沒有出現罕見的詞,然後它是文檔的信息的概率已經幾乎爲零的。相反地,如果一個罕見的術語在文檔中有許多發生那麼它必須是高概率 (幾乎必然) 爲文檔所描述的主題。同樣對 Ponte 和Croft的 [2] 的語言模型,我們在 DFR 模型中包括危險的因素。如果在文檔中的詞頻高然而不包含文檔信息的風險很小。在這種情況下公式 (1) 給出了很高的值,但風險降至最低也有提供小信息增益的負面影響。因此,而不是使用公式 (1) 所提供的全部重量,我們調整或光滑公式 (1) 的權重,通過考慮只有部分信息量是通過詞語獲得的︰
這裏寫圖片描述公式(4)

詞語在有價值的集合(elite set)中出現的越多,詞語更少依賴於隨機性,因此更小的可能性 Prisk 爲:
這裏寫圖片描述公式(5)

我們使用兩種模型來計算信息的增益通過在文檔中的詞語:拉普拉斯L模型( Laplace L model)和兩種伯努力過程的比值 B(ratio of two Bernoulli’s processes B)。
這裏寫圖片描述公式(6)

其中參數含義:

  • df 是指含有詞語的文檔數目
  • TF 是詞語 t 在集合中的頻率
  • tf 是詞語 t 在文檔 d 中的頻率

詞頻率正常化(Term Frequency Normalisation)

在使用公式(4)前,文檔的長度 dl 被規範到標準的長度 sl。因此,詞頻 tf 也被重新計算引入標準文檔長度。
這裏寫圖片描述公式(7)

一個更加複雜的公式,如下:
這裏寫圖片描述公式(8)

DFR 模型得出應用從生成的公式 (4), 使用基本的 DFR 模型 (如公式 (2) 或 (3)) ,結合信息增益 (如公式 6) 模型和實現正常化詞頻率 (如公式 (7) 或公式 (8))。

領域(fileds)

DFR 可以描述詞語以各種不同的方式在不同領域發生的重要性︰

  1. 每個字段的正常化︰詞語在不同領域中出現的頻率 通過在相應領域的代表字段長度統計實現正常化。這是表現爲 PL2F 加權模型。可以使用通用的 PerFieldNormWeightingModel 模型生成其他每個字段正常化模型。
  2. 多項式:來自不同領域的頻率被參照在他們偏離預期的詞語出現在這一領域的隨機性。ML2 和 MDL2 模型執行此加權。

鄰近(Proximity)

接近度可以通過 DFR 處理,通過考慮一對查詢詞語在預定義的大小窗口內出現次數。尤其是,DFRDependenceScoreModifier (DSM) 實現的 pBiL 和 pBiL2 的模型,測量相對於文檔的長度的隨機性,而不是對語料中的統計數據的隨機性。

DFR模型和交叉熵

可以用交叉熵的概念對增益風險生成公式 (4) 進行不同的解讀。香農在20 世紀 40 年代發表的通信的數學理論 [5] 確定最小平均碼字長度是關於源詞的概率值的熵。這一結果是在無聲的編碼定理(Noiseless Coding Theorem)的名義下被認知。無聲一詞是指在傳輸詞的過程中不可能出現產生錯誤的假設。然而它可能導致來源不同的相同信息都可用。在一般情況下每個源產生不用的編碼。在這種情況下,我們可以使用交叉熵來做兩種來源比較的證據。當觀測的兩個對像返回相同的概率密度函數,並且在這種情況下交叉熵恰好與香農熵交叉熵減至最低。

我們擁有兩個測試的隨機性:第一個測試是 Prisk,和詞語在有價值的文檔中的分佈有關,第二個是 ProbM,和文檔在整個集合中的重要性有關。初次分配可以被視爲新來源的的詞語分佈,並且在集合中詞語的編碼伴隨着詞語的分佈可以被認爲是初次的來源。兩個概率分佈的交叉熵的定義如下:
這裏寫圖片描述公式(9)

公式(9)是公式(4)在DFR模型中的實際聯繫。DFR模型可以等同地定義爲兩個概率測量的證據是兩個不同的來源的隨機性的量的發散。

想要知道更多有關於隨機性框架的分佈(Divergence from Randomness framework),你可以查到Gianni Amati或Amati和Van Rijsbergen的博士論文:Probabilistic models of information retrieval based on measuring divergence from randomness, TOIS 20(4):357-389, 2002.

[1] S.P. Harter. A probabilistic approach to automatic keyword indexing. PhD thesis, Graduate Library, The University of Chicago, Thesis No. T25146, 1974.
[2] J. Ponte and B. Croft. A Language Modeling Approach in Information Retrieval. In The 21st ACM SIGIR Conference on Research and Development in Information Retrieval (Melbourne, Australia, 1998), B. Croft, A.Moffat, and C.J. van Rijsbergen, Eds., pp.275-281.
[3] S.E. Robertson and S. Walker. Some simple approximations to the 2-Poisson Model for Probabilistic Weighted Retrieval. In Proceedings of the Seventeenth Annual International ACM-SIGIR Conference on Research and Development in Information Retrieval (Dublin, Ireland, June 1994), Springer-Verlag, pp. 232-241.
[4] S.E. Robertson, C.J. van Risjbergen and M. Porter. Probabilistic models of indexing and searching. In Information retrieval Research, S.E. Robertson, C.J. van Risjbergen and P. Williams, Eds. Butterworths, 1981, ch. 4, pp. 35-56.
[5] C. Shannon and W. Weaver. The Mathematical Theory of Communication. University of Illinois Press, Urbana, Illinois, 1949.
[6] B. He and I. Ounis. A study of parameter tuning for term frequency normalization, in Proceedings of the twelfth international conference on Information and knowledge management, New Orleans, LA, USA, 2003.
[7] B. He and I. Ounis. Term Frequency Normalisation Tuning for BM25 and DFR Model, in Proceedings of the 27th European Conference on Information Retrieval (ECIR’05), 2005.
[8] V. Plachouras and I. Ounis. Usefulness of Hyperlink Structure for Web Information Retrieval. In Proceedings of ACM SIGIR 2004.
[9] V. Plachouras, B. He and I. Ounis. University of Glasgow in TREC 2004: experiments in Web, Robust and Terabyte tracks with Terrier. In Proceedings of the 13th Text REtrieval Conference (TREC 2004), 2004.

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章