學習筆記———《自動文檔摘要評價方法---Edmundson和ROUGE》

      本人最近在做一個自動文檔摘要相關的項目,研究了一下目前業界的一些評價方法,閱讀了Chin-Yew Lin的《ROUGE: A Package for Automatic Evaluation of Summaries》的paper,也對應看了其他朋友整理的筆記,特整理此筆記供大家參考!

自動文檔摘要評價方法大致分爲兩類:

(1)內部評價方法Intrinsic Methods)           
       在提供參考摘要的前提下,以參考摘要爲基準評價系統摘要的質量。通常情況下,系統摘要與參考摘要越吻合,其質量越高。
2外部評價方法(Extrinsic Methods)           
       下面介紹兩個比較簡單的,也是在自動摘要評價以及自動文檔摘要的相關國際評測中經常會被用到的兩個內部評價方法:EdmundsonROUGE

(一)Edmundson
Edmundson評價方法屬於內部評價方法,可以客觀評估,就是通過比較機械文摘(自動文摘系統得到的文摘)與目標文摘的句子重合率(coselection rate) 的高低來對系統摘要進行評價。也可以主觀評估,就是由專家比較機械文摘與目標文摘所含的信息,然後給機械文摘一個等級評分。等級可以分爲:完全不相似,基本相似,很相似,完全相似等。Edmundson比較的基本單位是句子,是通過句子級標號分隔開的文本單元,句子級標號包括“。”、“:”、“;”、“!”、“?”等。爲使專家文摘與機械文摘具有可比性,只允許專家從原文中抽取句子,而不允許專家根據自己對原文的理解重新生成句子,專家文摘和機械文摘的句子都按照在原文中出現的先後順序給出。

Edmundson定義:

重合率p=匹配句子數/專家文摘句子數×100%

        每一個機械文摘的重合率爲按三個專家給出的文摘得到的重合率的平均值:
        即對所有專家的重合率取一個均值,Pi爲相對於第i個專家的重合率,n爲專家的數目。
(二)ROUGE
        ROUGERecall-Oriented Understudy for Gisting Evaluation),在2004年ISI的Chin-Yew Lin提出的一種自動摘要評價方法,現被廣泛應用於DUC(Document Understanding Conference)的摘要評測任務中。ROUGE基於摘要中n元詞(n-gram)的共現信息來評價摘要,是一種面向n元詞召回率的評價方法。基本思想爲由多個專家分別生成人工摘要,構成標準摘要集,將系統生成的自動摘要與人工生成的標準摘要相對比,通過統計二者之間重疊的基本單元(n元語法、詞序列和詞對)的數目,來評價摘要的質量。通過與專家人工摘要的對比,提高評價系統的穩定性和健壯性。該方法現已成爲摘要評價技術的通用標註之一。ROUGE準則由一系列的評價方法組成,包括ROUGE-N(N=1、2、3、4,分別代表基於1元詞到4元詞的模型)ROUGE-L,ROUGE-S, ROUGE-W,ROUGE-SU等。在自動文摘相關研究中,一般根據自己的具體研究內容選擇合適的ROUGE方法。

        其中,n表示n-gram的長度{Reference Summaries}表示參考摘要,即事先獲得的標準摘要,表示候選摘要和參考摘要中同時出現n-gram的個數,則表示參考摘要中出現的n-gram個數。不難看出,ROUGE公式是由召回率的計算公式演變而來的,分子可以看作“檢出的相關文檔數目”,即系統生成摘要與標準摘要相匹配的N-gram個數,分母可以看作“相關文檔數目”,即標準摘要中所有的N-gram個數。

   例:R1 : police killed the gunman.

R2 : the gunman was shot down by police.

C1 : police ended the gunman.

C2 :the gunman murdered police.

R1,R2 爲參考摘要,C1C2 爲候選摘要。

ROUGE-1(C1)=(3+3)/(4+7)=6/11

ROUGE-1(C2)=(3+3)/(4+7)=6/11

ROUGE-2(C1)=(1+1)/(3+6)=2/9

ROUGE-2(C2)=(1+1)/(3+6)=2/9

C1C2的ROUGE-1、ROUGE-2分數相等,但是意思完全不相同!

優點

直觀,簡潔,能反映詞序。

缺點:

區分度不高,且當N>3時,ROUGE-N值通常很小。

應用場景:

ROUGE-1:短摘要評估,多文檔摘要(去停用詞條件);

ROUGE-2: 單文檔摘要,多文檔摘要(去停用詞條件);

(2)ROUGE-L( Longest Common Subsequence )

        子序列一個給定序列的子序列就是該給定序列中去掉零個或者多個元素。
        公共子序列:給定兩個序列XY,如果Z既是X的一個子序列又是Y的一個子序列,
        則序列ZXY的一個公共子序列。
        LCS(最長公共子序列):給定兩個序列XY使得公共子序列長度最大的序列XY的最長公共子序列。

Sentence-Level LCS

計算公式:

        其中X爲參考摘要,長度爲mY爲候選摘要,長度爲n,用F值來衡量摘要XY的相似度,在DUC測評中,由於,所以只考慮

 例:  R1 : police killed the gunman.

C1 : police ended the gunman.

C2 : the gunman murdered police.

R1爲參考摘要,C1,C2爲候選摘要。

ROUGE-L(C1)=3/4

ROUGE-L(C2)=2/4

C1優於C2

優點:

不要求詞的連續匹配,只要求按詞的出現順序匹配即可,能夠像n-gram一樣

反映句子級的詞序。

自動匹配最長公共子序列,不需要預先定義n-gram的長度。

缺點:

只計算一個最長子序列,最終的值忽略了其他備選的最長子序列及較短子序列的影響。

應用場景:

單文檔摘要;短摘要評估。

   例:R1 : police killed the gunman.

C1 :the gunman murdered police.

C2 : the gunman police killed.

R1爲參考摘要,C1,C2爲候選摘要。

ROUGE-L(C1)=2/4

ROUGE-L(C2)=2/4

ROUGE-2(C1)=1/4

ROUGE-2(C2)=2/4

C1C2的ROUGE-L分數相等,但C2ROUGE-2分數高於C1C2優於C1!

Summary-Level LCS 

        將LCS應用到摘要級數相時,對參考摘要中的每一個句子與候選摘要中的所有句子比對,以union LCS作爲摘要句的匹配結果。

計算公式:

        其中R爲參考摘要,包含u個句子,m個詞,C爲候選摘要,包含v個句子,n個詞,長度爲n 是句子和候選摘要C的union LCS。

例:參考只要集句子 : w1 w2 w3 w4 w5

        候選摘要C包含兩個句子

        c1 : w1 w2 w6 w7 w8

        c2 : w1 w3 w8 w9 w5

        與 c1 的LCS 爲w1 w2,與c2的LCS爲w1 w3 w5,與Cunion LCS 爲w1 w2 w3 w5。

        ROUGE-L(C)=4/5

(3)ROUGE-W( WeightLongest Common Subsequence )

        爲使連續匹配比不連續匹配賦予更大的權重,公式描述如下:


        例如,同時爲了歸一化最終的ROUGE-W值,通常選擇函數與反函數具有相似形式的函數。例如:

計算公式:


例:R1 : police killed the gunman who injured 3 on campus.

        C1 : police kill the gunman and sealed off the scene.

        C2 : the police was killed and the gunman ran off.

        R1爲參考摘要,C1,C2爲候選摘要,

        WLCS(R1, C1) = 4*4=16,f(m) = 9*9 =81

        WLCS(R1, C2) = 2*4=16,f(m) = 9*9 =81

        ROUGE-W(C1) = 0.444

        C2優於C1!

        優點一LCS下,對連續匹配詞數多的句子賦予更高權重,比LCS區分度更高。

        缺點同ROUGE-L,只計算一個最長子序列,最終的值忽略了其他備選的最長子序列及較短子序列的影響。

        應用場景:單文檔摘要;短摘要評估;

(4)ROUGE-S( Skip-BigramCo-Occurrence Statistics)

        Skip-Bigram是按句子順序中的任何成對詞語。

計算公式:


        其中X爲參考摘要,長度爲mY爲候選摘要,長度爲n。SKIP2(X,Y)表示候選摘要與參考摘要的skip-bigram匹配次數

        Skip-gram如果不限制跳躍的距離,會出現很多無意義的詞對,比如“the of”、“in the”等。爲了減少無意義詞對的出現,可以限制最大跳躍距離,通常寫ROUGE-S4表示最大跳躍距離爲4,ROUGE-S9表示最大跳躍距離爲9,依次類推。如果爲0,那麼ROUGE-S0 = ROUGE-2。

例: R1 :police killed the gunman.

        C1 :police kill the gunman.

        C2 :the gunman kill police.

        C3 : thegunman police killed.

        R1爲參考摘要,C1,C2,C3爲候選摘要。

候選摘要 ROUGE-1 ROUGE-2 ROUGE-L ROUGE-W ROUGE-S
C1 0.75 0.25 0.75 0.61 0.5
C2 0.75 0.25 0.5 0.5 0.167
C3 1 0.5 0.5 0.5 0.333

        優點:考慮了所有按詞序排列的詞對,比n-gram模型更深入反映句子級詞序。

        缺點:若不設定最大跳躍詞數會出現很多無意義詞對。若設定最大跳躍詞數,需要指定最大跳躍詞數的值。

        應用場景:單文檔摘要;ROUGE-S4,ROUGE-S9: 多文檔摘要(去停用詞條件);


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章