學習筆記———《自動文檔摘要評價方法---Edmundson和ROUGE》

本人最近在做一個自動文檔摘要相關的項目，研究了一下目前業界的一些評價方法，閱讀了Chin-Yew Lin的《ROUGE: A Package for Automatic Evaluation of Summaries》的paper，也對應看了其他朋友整理的筆記，特整理此筆記供大家參考！

自動文檔摘要評價方法大致分爲兩類：

（1）內部評價方法（Intrinsic Methods）
在提供參考摘要的前提下，以參考摘要爲基準評價系統摘要的質量。通常情況下，系統摘要與參考摘要越吻合，其質量越高。
（2）外部評價方法（Extrinsic Methods）
下面介紹兩個比較簡單的，也是在自動摘要評價以及自動文檔摘要的相關國際評測中經常會被用到的兩個內部評價方法：Edmundson和ROUGE。

（一）Edmundson
Edmundson評價方法屬於內部評價方法，可以客觀評估，就是通過比較機械文摘（自動文摘系統得到的文摘）與目標文摘的句子重合率(coselection rate) 的高低來對系統摘要進行評價。也可以主觀評估，就是由專家比較機械文摘與目標文摘所含的信息，然後給機械文摘一個等級評分。等級可以分爲：完全不相似，基本相似，很相似，完全相似等。Edmundson比較的基本單位是句子，是通過句子級標號分隔開的文本單元，句子級標號包括“。”、“：”、“；”、“！”、“？”等。爲使專家文摘與機械文摘具有可比性，只允許專家從原文中抽取句子，而不允許專家根據自己對原文的理解重新生成句子，專家文摘和機械文摘的句子都按照在原文中出現的先後順序給出。

Edmundson定義：

重合率p＝匹配句子數／專家文摘句子數×100％

每一個機械文摘的重合率爲按三個專家給出的文摘得到的重合率的平均值：

即對所有專家的重合率取一個均值，Pi爲相對於第i個專家的重合率，n爲專家的數目。
（二）ROUGE
ROUGE（Recall-Oriented Understudy for Gisting Evaluation），在2004年由ISI的Chin-Yew Lin提出的一種自動摘要評價方法，現被廣泛應用於DUC（Document Understanding Conference）的摘要評測任務中。ROUGE基於摘要中n元詞(n-gram)的共現信息來評價摘要，是一種面向n元詞召回率的評價方法。基本思想爲由多個專家分別生成人工摘要，構成標準摘要集，將系統生成的自動摘要與人工生成的標準摘要相對比，通過統計二者之間重疊的基本單元(n元語法、詞序列和詞對)的數目，來評價摘要的質量。通過與專家人工摘要的對比，提高評價系統的穩定性和健壯性。該方法現已成爲摘要評價技術的通用標註之一。ROUGE準則由一系列的評價方法組成，包括ROUGE-N(N=1、2、3、4，分別代表基於1元詞到4元詞的模型)，ROUGE-L，ROUGE-S, ROUGE-W，ROUGE-SU等。在自動文摘相關研究中，一般根據自己的具體研究內容選擇合適的ROUGE方法。

其中，n表示n-gram的長度，{Reference Summaries}表示參考摘要，即事先獲得的標準摘要，表示候選摘要和參考摘要中同時出現n-gram的個數，則表示參考摘要中出現的n-gram個數。不難看出，ROUGE公式是由召回率的計算公式演變而來的，分子可以看作“檢出的相關文檔數目”，即系統生成摘要與標準摘要相匹配的N-gram個數，分母可以看作“相關文檔數目”，即標準摘要中所有的N-gram個數。

例：R1 : police killed the gunman.

R2 : the gunman was shot down by police.

C1 : police ended the gunman.

C2 :the gunman murdered police.

R1，R2 爲參考摘要，C1，C2 爲候選摘要。

ROUGE-1(C1)=(3+3)/(4+7)=6/11

ROUGE-1(C2)=(3+3)/(4+7)=6/11

ROUGE-2(C1)=(1+1)/(3+6)=2/9

ROUGE-2(C2)=(1+1)/(3+6)=2/9

C1與C2的ROUGE-1、ROUGE-2分數相等，但是意思完全不相同!

優點：

直觀，簡潔，能反映詞序。

缺點：

區分度不高，且當N>3時，ROUGE-N值通常很小。

應用場景：

ROUGE-1：短摘要評估，多文檔摘要（去停用詞條件）;

ROUGE-2: 單文檔摘要，多文檔摘要（去停用詞條件）;

（2）ROUGE-L（ Longest Common Subsequence )

  子序列：一個給定序列的子序列就是該給定序列中去掉零個或者多個元素。
  公共子序列：給定兩個序列X和Y，如果Z既是X的一個子序列又是Y的一個子序列，
  則序列Z是X和Y的一個公共子序列。
  LCS（最長公共子序列）：給定兩個序列X和Y，使得公共子序列長度最大的序列是X和Y的最長公共子序列。

Sentence-Level LCS

計算公式：

其中X爲參考摘要，長度爲m，Y爲候選摘要，長度爲n，用F值來衡量摘要X與Y的相似度，在DUC測評中，由於，所以只考慮。

例： R1 : police killed the gunman.

C1 : police ended the gunman.

C2 : the gunman murdered police.

R1爲參考摘要，C1，C2爲候選摘要。

ROUGE-L(C1)=3/4

ROUGE-L(C2)=2/4

C1優於C2！

優點：

不要求詞的連續匹配，只要求按詞的出現順序匹配即可，能夠像n-gram一樣

反映句子級的詞序。

自動匹配最長公共子序列，不需要預先定義n-gram的長度。

缺點：

只計算一個最長子序列，最終的值忽略了其他備選的最長子序列及較短子序列的影響。

應用場景：

單文檔摘要；短摘要評估。

例：R1 : police killed the gunman.

C1 :the gunman murdered police.

C2 : the gunman police killed.

R1爲參考摘要，C1，C2爲候選摘要。

ROUGE-L(C1)=2/4

ROUGE-L(C2)=2/4

ROUGE-2(C1)=1/4

ROUGE-2(C2)=2/4

C1與C2的ROUGE-L分數相等，但C2的ROUGE-2分數高於C1，C2優於C1!

Summary-Level LCS

將LCS應用到摘要級數相時，對參考摘要中的每一個句子

與候選摘要中的所有句子比對，以union LCS作爲摘要句

的匹配結果。

計算公式：

其中R爲參考摘要，包含u個句子，m個詞，C爲候選摘要，包含v個句子，n個詞，長度爲n，是句子和候選摘要C的union LCS。

例：參考只要集句子 : w1 w2 w3 w4 w5

候選摘要C包含兩個句子

c1 : w1 w2 w6 w7 w8

c2 : w1 w3 w8 w9 w5

與 c1 的LCS 爲w1 w2，與c2的LCS爲w1 w3 w5，與C的union LCS 爲w1 w2 w3 w5。

ROUGE-L(C)=4/5

（3）ROUGE-W（ WeightLongest Common Subsequence )

爲使連續匹配比不連續匹配賦予更大的權重，公式描述如下：

例如，同時爲了歸一化最終的ROUGE-W值，通常選擇函數與反函數具有相似形式的函數。例如：

計算公式：

例：R1 : police killed the gunman who injured 3 on campus.

C1 : police kill the gunman and sealed off the scene.

C2 : the police was killed and the gunman ran off.

R1爲參考摘要，C1，C2爲候選摘要，取

WLCS(R1, C1) = 4*4=16，f(m) = 9*9 =81

WLCS(R1, C2) = 2*4=16，f(m) = 9*9 =81

ROUGE-W(C1) = 0.444

C2優於C1!

優點：同一LCS下，對連續匹配詞數多的句子賦予更高權重，比LCS區分度更高。

缺點：同ROUGE-L，只計算一個最長子序列，最終的值忽略了其他備選的最長子序列及較短子序列的影響。

應用場景：單文檔摘要；短摘要評估；

（4）ROUGE-S（ Skip-BigramCo-Occurrence Statistics)

Skip-Bigram是按句子順序中的任何成對詞語。

計算公式：

其中X爲參考摘要，長度爲m，Y爲候選摘要，長度爲n。SKIP2(X，Y)表示候選摘要與參考摘要的skip-bigram匹配次數。

Skip-gram如果不限制跳躍的距離，會出現很多無意義的詞對，比如“the of”、“in the”等。爲了減少無意義詞對的出現，可以限制最大跳躍距離，通常寫ROUGE-S4表示最大跳躍距離爲4，ROUGE-S9表示最大跳躍距離爲9，依次類推。如果爲0，那麼ROUGE-S0 = ROUGE-2。

例： R1 :police killed the gunman.

C1 :police kill the gunman.

C2 :the gunman kill police.

C3 : thegunman police killed.

R1爲參考摘要，C1,C2,C3爲候選摘要。

候選摘要 ROUGE-1 ROUGE-2 ROUGE-L ROUGE-W ROUGE-S
C1 0.75 0.25 0.75 0.61 0.5
C2 0.75 0.25 0.5 0.5 0.167
C3 1 0.5 0.5 0.5 0.333

優點：考慮了所有按詞序排列的詞對，比n-gram模型更深入反映句子級詞序。

缺點：若不設定最大跳躍詞數會出現很多無意義詞對。若設定最大跳躍詞數，需要指定最大跳躍詞數的值。

應用場景：單文檔摘要；ROUGE-S4，ROUGE-S9: 多文檔摘要（去停用詞條件);

學習筆記———《自動文檔摘要評價方法---Edmundson和ROUGE》

學習筆記———《SIFT算法》

學習筆記———《GMM模型以及基於EM算法的參數估計》

Python學習筆記———《計算程序運行時間》

Python學習筆記———《文件操作》

學習筆記———《EM算法》

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

候選摘要	ROUGE-1	ROUGE-2	ROUGE-L	ROUGE-W	ROUGE-S
C1	0.75	0.25	0.75	0.61	0.5
C2	0.75	0.25	0.5	0.5	0.167
C3	1	0.5	0.5	0.5	0.333