AI自動生成新聞評論:微軟聯合北航提出全新深層模型DeepCom

本文將爲大家解讀由微軟北京研究院和北航大學最新提出的工作,研究人員基於人類對新聞進行評論時的“閱讀-關注-評論”行爲,提出了自動生成新聞評論的深層架構DeepCom。自動生成新聞評論在實際中已有應用,但是尚未在研究領域引起足夠的重視。DeepCom結構包含一個閱讀網絡和一個生成網絡。首先由閱讀網絡對新聞文章進行理解,並提煉出一些重要的觀點,然後生成網絡通過關注提取的信息點和新聞標題來生成評論。在兩個公共數據集上的實驗結果表明,該模型在自動評價標準和主觀評分兩方面都明顯優於現有方法。本文是AI前線第95篇論文導讀。

1 介紹

網絡新聞評論可以讓用戶在新聞文章下表達自己的觀點,展示自己的態度,並相互交流。新聞網站設置評論功能,是希望通過鼓勵用戶瀏覽評論、共享信息,並相互討論,以擴展新聞的內容並且提高新聞網站的用戶參與度。隨着網絡新聞評論越來越流行,構建自動的新聞評論生成系統成爲了研究熱點。這種系統可以從冷啓動開始爲新聞網站提供評論服務,增強評論較少的新聞的閱讀體驗,並豐富其他人工智能應用(如聊天機器人)的技能列表

本文研究的是新聞評論自動生成問題,目前該領域研究較少。現有的工作做了一些初步的研究,或是從一篇新聞文章的標題中生成評論,或是通過將整篇新聞(標題加正文)輸入一個帶有注意力機制的Seq2Seq模型來生成評論。但是新聞標題短小精悍,僅使用新聞標題可能會在評論生成中丟失大量有用信息。而且,新聞文章和新聞評論不是一對平行的文本。新聞文章往往比評論長得多,而且包含了許多與評論無關的信息。因此,直接將Seq2Seq模型應用於新聞評論生成任務是不合適的。

這兩種方法都過分簡化了新聞評論生成的問題,與人們在新聞網站上的行爲方式相去甚遠。在實際情況中,人們首先閱讀一篇新聞文章,關注到新聞中的一些要點,然後將他們的評論和他們感興趣的要點一起表達出來。

表1:雅虎新聞評論示例

作者用雅虎新聞的一個例子說明了新聞評論的產生機制。這篇新聞報道的是國際足聯的新排名,作者從衆多評論中挑選了兩條評論來解釋人們是如何進行評論的。首先,這兩位評論者都瀏覽了整篇文章,因爲他們的評論是建立在正文中的細節之上的。其次,文章給出了關於新排名的許多細節,但兩位評論者都只評論了幾點。第三,兩位評論者的關注點不同:第一位評論者注意到排名是基於新世界盃的結果,對巴西的位置感到好奇;第二位評論者只是對英格蘭的新位置有興趣。這個例子說明新聞評論是通過 “閱讀-關注-評論”這一過程而產生的,作者受此啓發,構建了自動生成新聞評論的模型DeepCom。

爲了模仿“閱讀-關注-評論”的過程,作者提出了一個閱讀網絡和一個生成網絡。閱讀網絡模擬人們理解新聞文章,作爲新聞的編碼器。生成網絡模擬人們在閱讀新聞後如何評論新聞,作爲評論的解碼器。閱讀網絡從下到上由表示層、融合層和預測層組成。第一層使用RNN-GRU提取新聞標題的表示,並通過自關注機制提取新聞主體的表示,可以模擬詞語之間的長距離依賴關係。第二層通過注意力機制和門機制將標題的信息融合到新聞主體的表示中,形成整個新聞文章的表示。注意力機制在標題中選擇有用的信息,而門機制進一步控制標題信息流入到新聞主體表示中的程度。最後,在前兩層之上構建第三層,使用多標籤分類器和指針網絡來預測文章中的一組顯著分段(例如單詞、短語和句子等)。通過閱讀網絡,模型可以理解新聞文章,並從中提煉出一些關鍵點(即顯著分段)。生成網絡的結構爲RNN模型,它通過注意力機制關注閱讀網絡選擇的分段和新聞標題,然後逐字生成評論。在訓練中,由於顯著分段不是直接可用的,所以作者將其視爲隱變量,然後通過蒙特卡羅採樣方法優化真實目標的下界,從新聞-評論數據對中聯合學習兩個網絡。這樣,評論預測中的誤差可以反向傳播到分段選擇中,並用於指導閱讀網絡理解新聞。

作者在兩個大數據集上進行了實驗。一個是騰訊最近發佈的中文新聞數據集,另一個是從雅虎網站上搜集的新聞。在這兩個數據集上的結果均表明,該模型在自動評價指標和人工評分上都明顯優於現有方法。雅虎新聞語料庫和源代碼均已公開。

本文的貢獻主要體現在四個方面:(1)提出了一種基於“閱讀-關注-評論”過程的新聞評論生成結構,包括閱讀網絡和生成網絡;(2)採用端到端的學習方法對兩個網絡進行聯合優化;(3)在兩個公開數據集上,從自動評價指標和人工評分兩個方面驗證了所提出模型的有效性;(4)發佈了一個英文新聞評論數據集。

2 方法

2.1 問題描述

假設有一個數據集D={(Ti, Bi, Ci)},每個三元組(Ti,Bi,Ci)由新聞標題Ti,新聞主體Bi,和評論Ci組成。生成新聞評論的目標是從D中估計概率分佈P(C|T,B),這樣,對於新的新聞數據(T, B),可以根據P(C|T,B)生成評論C。

2.2 模型概覽

圖1:模型結構。
 

圖1給出了模型結構。該模型由一個閱讀網絡和一個生成網絡組成。閱讀網絡首先在表示層中分別表示新聞標題和新聞正文,然後通過融合層將標題信息融合到正文表示中,形成對整篇新聞的表示,最後通過預測層從新聞中提煉出一些顯著性分段(salient span)。然後將顯著性分段和新聞標題反饋到生成網絡以生成評論。利用這兩個網絡,可以將生成概率P(C|T,B)分解爲P(S|T,B)* P(C|S,T),其中S=(s1,…,sw)表示B的一組分段,P(S|T,B)表示閱讀網絡,P(C|S,T)表示生成網絡。

2.3 閱讀網絡

在表示層中,假設T=(t1,…,tn),表示新聞標題,其中tj表示第j個詞,B=(b1,…,bm)表示新聞正文,bk表示第k個詞。首先通過內嵌表示,將tj和bk分別表示爲eTj和eBk。爲了強調新聞正文中單詞的位置信息,作者增加了oBk和sBk表示。oBk指示新聞正文單詞bk在句子中的位置,而sBk表示這個句子在新聞正文中的位置。於是bk的最終表示由下式得到:

其中MLP指多層感知機。

T和B的初始表示分別爲:(eT1, eT2,…,eTn)和(eB1, eB2,…,eBm)。閱讀網絡隨後利用RNN-GRU將T和B轉換成隱矢量序列:

其中hBk由自關注機制得到,以捕捉長距離單詞的依賴性。

融合層的輸入爲HT和HB,通過融合HT和HB,生成V=(v1,…,vm)作爲整個新聞的表示。對於HB中的一個元素hBk,首先讓hBk關注HT,以識別標題中的有用信息,並且通過門單元,平衡標題和新聞主體的影響。

閱讀網絡的頂層(預測層)基於整體表示V提取新聞的顯著性分段(span)。假設S=((a1,e1),…,(aw,ew))表示顯著性分段,其中ai和ei指代第i個分段的開始點和終止點。作者利用多標籤分類問題來識別起始點,將整體表示V作爲輸入,L=(l1,…,lm)作爲輸出。如果第k個詞是分段的起始點,那麼lk=1,否則lk=0。由於各個分段的起始點是互相獨立的,可以通過設計多個二值分類器進行識別。該方法能夠有效靈活地從長度變化的新聞中檢測出不同數量的分段,並且由於多個分類器之間沒有依賴性,可以平行計算。給定ak,終止位置ek可以通過指針網絡得到:

其中h0=att(V,r)爲注意力池化矢量:

用start表示顯著性分段的起始位置,用pi表示P(li=1),於是P(S|T,B)可以表示爲:

2.4 生成網絡

通過閱讀網絡,得到了顯著性分段S=((a1,e1),…,(aw,ew)),新聞正文表示V=(v1,…,vm),以及新聞標題表示HT,可以得到顯著性分段S的隱表示HS:

生成網絡輸入HT和HS,然後按詞解碼輸出評論。在第t步,隱狀態爲:

eC,t-1爲單詞在第t-1步的內嵌表示,CT,t-1=att(HT, ht-1)和CS,t-1=att(HS, ht-1)爲上下文矢量,分別表示對標題和分段的注意力。

有了ht,可以通過att(HT,ht)和att(HS,ht)計算得到CT,t和CS,t,然後得到單詞表的概率分佈:
 

假設C=(c1,…,co)爲評論,ck爲C中第k個詞在單詞表中的索引,於是P(C|S,T)可以定義爲:

其中Pt(ct)指Pt的第ct項。在解碼時,作者定義初始狀態h0爲HT和HS的連接矢量上的注意力池化矢量:att([HT;HS],q)。q爲從訓練數據中學習得到的參數。

2.5 學習方法

模型的目標是從D={(Ti,Bi,Ci)}中學習P(S|T,B)和P(C|S,T),但是在實際情況中,S很難得到。爲了解決這個問題,作者將S視爲一個隱變量,然後考慮如下的目標函數:

S指分段集的空間,Si爲(Ti,Bi)的隱分段集。作者嘗試最大化J的下界:

θ表示模型的所有參數,dLi/dθ表示L對樣本(Ti,Bi,Ci)的梯度:

爲了計算梯度,需要找到(Ti, Bi)對應的所有分段Si,但這是很難實現的。因此作者採用蒙特卡洛採樣方法來近似dLi/dθ。假設有J個樣本,那麼dLi/dθ的近似爲:

Si,n表示對分段採樣的結果。儘管蒙特卡洛方法是無偏估計,但是會受到高方差的影響。爲了減少方差,作者從logP(Ci|Si,n,Ti)中減去基線。作者引入基線Bψ(Ti,Ci)捕捉訓練中新聞-評論數據對的系統差異。此外,作者也探索了全局基線B,進一步控制估算子的方差。因此dLi/dθ可以近似寫爲:

B爲P(Ci|Si,n,Ti)- Bψ(Ti,Ci)在當前批的均值。

優化算法:

爲了加快收斂,作者通過預訓練閱讀網絡和生成網絡初始化模型。對於(Ti,Bi,Ci),作者建立了人工分段Si,然後通過最大化如下目標函數學習這兩個網絡的參數:

Si通過兩步建立:首先,收集與新聞(Ti,Bi)相關的所有評論,從評論中提取n-gram模型,如果Bi中的某一個n-gram完全與評論中的一個n-gram匹配,則將其作爲隱分段。然後,將Bi拆分成句子,計算句子和相關評論的匹配分數。每個句子都對應一組匹配分數,如果其中哪一個超過了0.4,則將該句子作爲顯著性分段。

3 實驗

3.1 實驗設置

作者在兩個大型新聞評論數據庫上測試了新模型。

表2:數據集信息
 

第一個數據集爲騰訊新聞中搜集的中文新聞數據集。每個數據點包含一篇新聞,由新聞標題、新聞正文和一組評論組成,以及一些邊緣信息,例如點贊和分類。每個測試評論都由兩個標註人員根據表3所示的評價標準進行打分。除了中文數據,作者建立了另外一個數據庫,是從雅虎新聞上搜集的新聞和評論。新聞標題、正文和評論包含的詞語數量平均爲12、578和32個。

作者採用自動評價標準和人工打分來評價模型的表現。自動評價標準包括BLEU、METEOR、ROUGE、CIDEr。人工打分加權標準包括W-BLEU、W-METEOR、W-ROUGE和W-CIDEr。在主觀評價中,作者招募了三名人員按照表3的標準對生成評論進行打分。

表3:人工打分標準

3.2 基線模型

  1. IR-T和IR-TC:這兩個模型通過TF-IDF矢量的餘弦角檢索候選文章以及相關評論,然後使用卷積神經網絡對評論進行排序,返回排在最前的評論。IR-T只利用新聞標題信息,IR-TC利用新聞標題和正文。

  2. Seq2Seq:基礎的序列轉換模型,從標題中生成評論。

  3. Att和Att-TC:注意力機制的序列轉換模型。Att只利用新聞標題信息,Att-TC利用新聞標題和正文。輸入爲標題(Att)或標題和新聞主體(Att-TC)。

  4. GANN:門控注意力神經網絡。

3.3 實驗結果

表4:自動評價指標和人工打分的實驗結果。

表4給出了自動評價指標和人工打分的結果。在大多數自動評價指標上,DeepCom超過了基線方法,並且提升程度很高。在BLEU-1和W-BLEU-1指標上的提升程度超過了其他指標。在人工打分中,總體的打分趨勢是一致的。Fleiss Kappa係數均超過了0.6,表明打分人員的基本意見是一致。

3.4 討論

3.4.1 Ablation study

作者對比了模型的以下變體:(1)沒有閱讀網絡:用基於TF-IDF的關鍵詞提取器替代了閱讀網絡,將前40個關鍵詞直接輸入生成網絡;(2)沒有預測層:移除閱讀網絡中的預測層,將得到的新聞表示V直接用於生成網絡;(3)沒有采樣:直接使用最大化目標函數預訓練的模型。表5給出了對比實驗結果。

表5:模型剝離實驗結果

從表中可以看出,所有的模型變體表現都有所下降,並且沒有閱讀網絡的情況表現最差。由此可以總結出:(1)預測分段層不能簡單地通過TF-IDF關鍵詞提取步驟來替代,因爲分段預測是對新聞文章的深度理解,並且能夠在端到端的學習過程中進行校準;(2)即使有複雜的文章表示,也不能直接將整篇文章輸入生成網絡,因爲文章中的無用信息對生成評論的效果有很大影響;(3)預訓練是有用的,但是優化真實目標函數的下界也是有益的。

通過從新聞中提取顯著分段,DeepCom可以濾除掉冗餘信息,同時保持人們喜歡評價的新聞點。通過採樣,DeepCom可以利用更長的顯著性分段,因此DeepCom在生成評論時可以利用語篇層面的信息,而不是簡單的詞語,這也是DeepCom的優勢之一。

3.4.2 主觀評分分析

通過對主觀評分進行分析,可以看出DeepCom、Att-TC和IR-TC分別存在的問題。

表6:主觀評分分佈
 

從表6中可以看出,IR-TC的大部分評論得分都爲2分,說明儘管IR-TC生成的評論信息豐富,但是容易偏離新聞主題,所以被評價爲“不相關的”。在Att-TC生成的評論中,1分評論所佔的比例遠高於其他兩個模型,說明Att-TC容易生成有語法錯誤的句子。這是由於新聞文章和評論是高度不對稱的,因此不能簡單地用編碼器-解碼器的結構建模生成過程。而DeepCom生成的評論中,負面分數大部分爲3分,說明需要進一步豐富評論內容,並且提升評論的相關性。

3.4.3 實例研究

表7:騰訊新聞數據庫中的實例展示。紅色框指的是閱讀網絡預測的顯著性分段。藍色框爲包含在顯著性分段中的詞語。

在表7中,作者可視化了預測的顯著分段和生成評論。可以看出DeepCom模型發現了一些有意思的點,並且根據顯著性分段生成了評論。更有趣的是,生成的評論中提到了“羅晉”,是唐嫣的丈夫,擴展了原新聞的內容,而羅晉在原新聞中並沒有被提到。對比之下,基線方法給出的評論則太概括(Att-TC,最好的生成基線),或完全與新聞不相關(IR-TC,最好的檢索基線)。該示例說明,DeepCom通過分析理解新聞內容,能夠生成與新聞主體相關的,且信息豐富的評論。

4 結論

這篇論文提出了一個自動新聞評論生成模型,由一個閱讀網絡和一個生成網絡組成:閱讀網絡理解新聞文章,並且將其分解成顯著點。生成網絡利用顯著點以及新聞標題來合成評論。作者在兩個公開數據集上進行了實驗,實驗結果表明該模型在自動評價指標和主觀評分上均顯著超越了基線方法。

論文原文鏈接:https://arxiv.org/pdf/1909.11974.pdf

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章