【論文】【ACL2018】Neural Document Summarization by Jointly Learning to Score and Select Sentences

論文題目:Neural Document Summarization by Jointly Learning to Score and Select Sentences. 

論文作者:Qingyu Zhou, Nan Yang, Furu Wei, Shaohan Huang, Ming Zhou, Tiejun Zhao.

下載鏈接:https://aclweb.org/anthology/P18-1061

代碼開源:https://github.com/magic282/NeuSum

 

太長不看版

本文提出了一種端到端的抽取式文本摘要模型(NEUSUM)。

該模型將選擇策略集成到打分模型中,解決了此前抽取式文本摘要中句子打分和句子選擇這兩部分割裂的問題,端到端且不再需要人爲干預。

並達到了 CNN/Daily Mail 數據集的 state-of-the-art

 

主要思想

基於深度學習的抽取式摘要的方法基本分爲以下四個步驟:句子編碼、文章編碼、句子打分、摘要選擇。

 

這其中摘要選擇部分的順利進行依賴於句子可以很好的打分,然而在此前的研究方法句子打分與句子選擇(即摘要選擇)這兩個環節常常被割裂開來。

 

本文針對這一現象,提出了一種端到端的抽取式文本摘要模型(NEUSUM),將選擇策略集成到打分模型中,解決了此前抽取式文本摘要中句子打分和句子選擇這兩部分割裂的問題端到端且不再需要人爲干預並達到了 CNN/Daily Mail 的 state-of-the-art

問題定義

抽取式摘要的目的在於抽取能夠包含文章重要信息的句子,句子打分越高,其包含的信息越重要,越成爲表示文章的摘要句。

 

本模型的訓練目標即學到一個score function(打分函數)g,該函數計算加入當前句子後生成的摘要能得到的ROUGE F1的收益。

 

公式中函數 r 即表ROUGE F1。S表示當前句子與已經選出的句子集合。在每一個時間步 t,模型會選出能夠得到最大收益(即使函數 得到最大值的句子)直至達到摘要限制長度。

 

 

 

模型結構

基於深度學習的抽取式摘要的方法基本分爲以下四個步驟:句子編碼、文章編碼、句子打分、摘要選擇。

 

1-2)Document & Sentence Encoding:句子編碼、文章編碼使用BiGRU

3-4)Sentence Scoring and Selection:句子打分、摘要選擇融合到一起

 

融合到一起的好處

a. 句子打分時可以看到前面句子的信息(前人方法的句子打分時句子間相對獨立)

b. 打分函數 的存在簡化了句子選擇模塊

 

句子打分的具體實現:

句子打分需要同時考慮當前句子的重要性和已經選出的summary,此處加入另一個GRU。在GRU之上連接句子打分器(scorer)。

The sentence scorer 是一個雙層MLP,有兩個輸入向量:current hidden ht 和 sentence vector si。公式如下(有bias,爲了簡化在公式中省略)

 

 

損失函數:

Objective Function:KL-loss-function

 

數據構建

CNN/Daily Mail 是人爲標註的生成式摘要的數據集。本文構建抽取式摘要訓練數據的方法是 maximizing the ROUGE-2 F1 score

 

數據預處理部分(包括sentence splitting, word tokenization)參照See et al. (2017), 使用非匿名版本。

 

CNN/Daily Mail 數據集統計如下表:

實驗結果:

結論

本文的方法與以前的方法最大的不同之處在於,它將句子評分和選擇結合成一個階段。

每次選擇一個句子,根據已輸出摘要和當前狀態對句子進行評分。

最終的ROUGE評價結果表明,本文提出的聯合評分和選擇方法明顯優於以往的分離方法。

 

本文來自程序媛驛站,未經授權不得轉載.

如有需要請公衆號後臺聯繫

(歡迎轉發到朋友圈~)

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章