DialogueGCN論文翻譯

對話GCN:對話中情感識別的圖卷積神經網絡
緒論
會話中的情感識別(ERC)最近受到了研究者的廣泛關注,因爲它在醫療,教育和人力資源等各個領域都有潛在的廣泛應用。 在本文中,我們介紹了對話圖卷積網絡(DialogueGCN),這是一種基於圖神經網絡的ERC方法。 我們利用對話者的自我和說話者之間的依存關係來爲情感識別建模會話上下文。 通過圖網絡,DialogueGCN解決了當前基於RNN的方法中存在的上下文傳播問題。 我們憑經驗表明,這種方法可以緩解此類問題,同時在許多基準情感分類數據集上的表現要優於當前水平。

1 引言

幾十年來,情緒識別一直是一個活躍的研究主題(K. D’Mello等,2006; Busso等,2008; Strapparava和Mihalcea,2010)。 然而,最近在社交媒體平臺(例如Facebook,Twitter,Youtube和Red dit)上開放式對話數據的激增引起了熱烈的關注(Poria等人,2019b; Majumder等人,2019; Huang等人。 (2019年),從研究人員轉向對話中的情感識別(ERC)。 不可否認,ERC在情感對話系統(如圖1所示)中也很重要,在這種對話中,機器人可以理解用戶的情緒併產生連貫和移情反應的情緒。

在這裏插入圖片描述
圖1:情感對話的插圖,其中情感取決於上下文。 健康助手瞭解用戶的情感狀態,以生成情感和移情反應

有關ERC的最新工作是使用遞歸神經網絡(RNN)按順序處理對話的構成話語。 圖2(Poria et al。,2019b)中說明了這種方案,該方案依賴於將語境和順序傳播到話語中。 因此,我們將對話提供給雙向門控循環單元(GRU)(Chung等,2014)。 但是,與大多數當前模型一樣,由於在基準數據集中缺乏對這些方面的關注,因此我們也忽略了意向模型,主題和個性。 從理論上講,像長期短期記憶(LSTM)(Hochreiter and Schmidhuber,1997)和GRU之類的RNN應該傳播長期的上下文信息。 然而,實際上並非總是如此(Bradbury et al。,2017)。 這會影響基於RNN的模型在包括ERC在內的各種任務中的效率。

爲了緩解此問題,最新技術的某些變體DialogueRNN(Ma jumder et al。,2019)採用注意力機制,根據目標話語彙集來自整個或部分對話的信息。但是,這種集合機制在話語的形成以及目標話語中其他話語的相對位置中不考慮說話者。說話者信息對於提高說話者之間的依存關係是必需的,這使模型能夠了解說話者如何致使其他說話者的情緒變化。同樣,通過擴展,說話者內部或自我依賴可以幫助理解個體說話者慣性的情緒模型,在這種情況下,說話者抵制外部影響而抵制自己情緒的變化。另一方面,對目標和上下文話語相對位置的考慮決定了過去話語如何影響未來話語,反之亦然。雖然過去的話語會影響未來的話語是很自然的,但相反的過程可能會幫助模型填充一些相關的缺失信息,這是說話者背景知識的一部分,但會在以後的對話中明確出現。我們通過構建圖來對會話進行建模來利用這兩個因素。圖中的節點表示各個話語。一對節點/話語之間的邊表示這些話語的說話者之間的依存關係,以及它們在會話中的相對位置。通過將此圖饋送到圖卷積網絡(GCN)(Defferrard et al。,2016),該圖卷積網絡由兩個連續的卷積運算組成,我們在遠距離語音之間傳播上下文信息。我們推測,與DialogueRNN相比,這些表示具有與情感相關的更豐富的上下文。這在第5節中有經驗地顯示。
在這裏插入圖片描述
圖2:對象A和對象B之間的二元對話期間不同控制變量之間的交互。灰色和白色圓圈分別表示隱藏變量和觀察到的變量。 P代表個性,U代表話語,S代表對話者的狀態,I代表對話者的意圖,E代表情感,Topic代表對話的話題。可以很容易地擴展到多方對話。

本文的其餘部分按以下順序組織:第二部分簡要討論了有關ERC的相關工作; 第三節詳細介紹了該方法。 第4節列出了實驗; 第5節顯示並解釋了實驗結果; 最後,第六部分總結了論文。

2 有關工作
對話中的情感識別是自然語言處理中的熱門研究領域(Kratzwald等人,2018; Colneric和Dem- sar,2018),因爲其在廣泛的系統領域(包括意見挖掘, 衛生保健,推薦系統,教育等。

然而,由於開源對話數據集可用性的提高,對話中的情感識別僅在過去幾年中才引起研究人員的關注(Chen等人,2018; Zhou等人,2018; Poria等人。 ,2019a)。 還提出了許多用於多模式數據(即具有文本,聲音和視覺信息的數據集)中的情緒識別的模型。 一些重要的著作包括(Po ria等人,2017; Chen等人,2017; Zadeh等人,2018a,b; Hazarika等人,2018a,b),其中基於深度學習的技術主要有 僅在文本和多模式設置中被用於對話中的情感識別。 當前對話中情感識別的最新模型是(Majumder等人,2019),作者在其中引入了基於政黨狀態和全局狀態的遞歸模型來對情感動態進行建模。

圖神經網絡最近也非常流行,並已應用於半監督學習,實體分類,鏈接預測,大規模知識庫建模以及許多其他問題(Kipf and Welling,2016; Schlichtkrull等。 ,2018; Bruna等,2013)。 圖神經網絡的早期工作包括(Scarselli等,2008)。 我們的圖模型與(Schlichtkrull等人,2018)中引入的圖關係建模工作密切相關。

3 方法

對話中情感識別的最重要策略之一是上下文建模。 我們確定了ERC中的兩種主要上下文類型-順序上下文和說話者級上下文。 繼波里亞等。 (2017年),我們針對每個目標話語通過相鄰的言語對這兩種類型的上下文進行建模。

上下文的計算建模還應該考慮對話中對話者的情感動態。在二元和多方對話系統中,情感動力通常要受到兩個主要因素的影響:說話者之間的依賴性和自我依賴性。說話者之間的依賴性是指說話者中產生的相互情感影響。這種依賴性與以下事實密切相關:在對話過程中,說話者傾向於反饋對方以建立融洽的關係(Navar retta等,2016)。但是,必須考慮到,並非所有參與者都會以相同的方式影響演講者。每個參與者通常以獨特的方式影響彼此。相反,自立性或情緒慣性處理的是說話者在談話過程中對自己的情緒影響。對話中的參與者可能會由於自己的情緒慣性而堅持自己的情緒狀態,除非對方發起改變。因此,在對話中,說話者之間的依賴性和自我依賴性之間總是存在着主要的相互作用。

我們推測,將這兩種截然不同卻又相關的上下文信息方案(順序編碼和說話者編碼)組合起來,將會創建增強的上下文表示,從而更好地理解會話系統中的情感動力。

3.1問題的定義

假設在對話中有M個演講者/參與者p1,p2,…pM。 任務是預測構成對話u1,u2,…,uN的情感標籤(快樂,悲傷,中立,憤怒,興奮,沮喪,厭惡和恐懼),其中對話ui由說話者ps(ui)發出的,而s是說話者與其對應說話者的索引之間的映射。 我們還將ui∈RDm表示爲話語的特徵表示,它是使用下面描述的特徵提取過程獲得的。

3.2 上下文無關的話語級特徵提取

卷積神經網絡(Kim,2014年)用於從語音記錄中提取文本特徵。 我們使用單個卷積層,然後是最大池化和一個完全連接的層,以獲取話語的特徵表示。 該網絡的輸入是300維預訓練的840B GloVe矢量(Pennington等,2014)。 我們使用大小爲3、4和5的過濾器,每個過濾器中都有50個特徵圖。 然後將卷積的特徵最大合併爲一個窗口大小爲2的窗口,然後進行ReLU激活(Nair和Hinton,2010)。 然後將它們合併並饋入100維完全連接層,其激活形成話語的表示。 該網絡在話語級上使用情感標籤進行訓練。

3.3 模型
在這裏插入圖片描述
現在,我們介紹用於對話設置中情感識別的“對話圖卷積網絡(DialogueGCN1)”框架。 DialogueGCN由三個組成部分組成-順序上下文編碼器,說話者級上下文編碼器和情感分類器。 所提出框架的總體架構如圖3所示。

3.3.1 順序上下文編碼器

由於對話本質上是順序的,因此上下文信息沿該順序流動。 我們將對話饋送到雙向門控的當前單元(GRU)在這裏插入圖片描述,以捕獲此上下文形式:,其中i = 1、2。 。 。 N,其中ui和gi分別是上下文無關和順序的上下文感知話語表示。

由於話語的編碼與講話者無關,因此這種初始編碼方案與講話者無關,這與現有技術Dia LogueRNN(Majumder等,2019)相反。

3.3.2 說話者級上下文編碼器

我們以圖形網絡的形式提出說話者級上下文編碼器模塊,以捕獲對話中與說話者相關的上下文信息。 有效地對說話者級別的上下文進行建模需要捕獲參與者之間的相互依賴性和自依賴性。 我們從順序編碼的語音中設計一個有向圖,以捕獲參與者之間的這種交互。 此外,我們提出了一種基於局部鄰域的卷積特徵變換過程,以創建豐富的說話者級別的上下文編碼特徵。 此處詳細介紹了該框架。

首先,我們引入以下表示法:具有N言語的會話表示爲有向圖G(V,E,R,W),頂點/節點vi∈V,標記的邊(關係)rij∈E其中r ∈R是介於vi和vj之間的邊的關係類型,αij是標記邊rij的權重,其中0⩽αij⩽1,其中αij∈W和i,j∈1,2,…, N]。

圖形構造:通過以下方式從話語構造圖形

頂點:對話中的每個話語都表示爲G中的頂點vi∈V。對於所有i∈1、2,…,N],每個頂點vi都使用相應的順序編碼特徵向量gi進行初始化。 我們將此向量表示爲頂點特徵。 當將基於鄰域的轉換過程應用於說話者級別的上下文進行編碼時,頂點特徵可能會在下游發生變化。

:邊E的構造取決於要建模的上下文。 例如,如果我們假設每個話語(頂點)在上下文中都依賴於對話中的所有其他話語(在對說話人的水平進行編碼時),那麼將構建一個完全連接的圖。 也就是說,每個頂點都通過一條邊連接到所有其他頂點(包括自身)。 但是,這導致邊的數量爲O(N2),這對於具有大量頂點的圖在計算上非常昂貴。 一個更實際的解決方案是通過保持過去的上下文窗口大小爲p和將來的上下文窗口大小爲f來構造邊。 在這種情況下,每個話語頂點vi都有一個邊,這些邊具有過去的話語:vi-1,vi-2,… vi-p,將來的話語:vi + 1,vi + 2,…vi + f及其本身:vi。 對於本文中的所有實驗,我們考慮過去的上下文窗口大小爲10,將來的上下文窗口大小爲10。

如圖所示,兩個頂點可以在兩個方向上具有不同關係的邊。

邊權重:使用基於相似度的注意力模塊設置邊權重。 注意函數的計算方式是,對於每個頂點,輸入的一組邊的總權重爲1。考慮過去的上下文窗口大小爲p,將來的上下文窗口大小爲f,權重計算爲
在這裏插入圖片描述
這確保了頂點vi的傳入邊具有頂點vi-p,…。 。 。 ,vi + f(作爲話語者級別的上下文)獲得的總權重貢獻爲1。

關係:邊rij的關係r取決於兩個方面:

說話者依存關係—關係取決於構成頂點的說話者:ps(ui)(vi的說話者)和ps(uj)(vj的說話者)。

時間依賴關係-這種關係還取決於會話中ui和uj出現的相對位置:ui是在uj之前還是之後發出。 如果對話中有M個不同的講話者,則圖G中最多可以有M個(ui的講話者)* M(uj的講話者)* 2(ui在uj之前或之後出現)= 2M2個不同關係類型r。

對話中的每個說話者都會受到彼此唯一的影響,因此,我們假設在圖表中明確聲明這種關係邊將有助於捕獲遊戲中說話者之間的相互依賴性和自相關性。 繼承將促進說話者級別的上下文編碼。

作爲說明,讓兩方p1,p2參與具有5個發聲的二元對話,其中u1,u3,u5由p1管控,u2,u4由p2管控。 如果我們考慮一個完全連接的圖,則將按照表1所示構造邊和關係。

特徵轉換:我們現在開始描述使用圖網絡轉換順序編碼的特徵的方法。 頂點特徵向量(gi)最初是獨立的說話者,然後使用兩步圖卷積過程轉換爲說話者相關的特徵向量。 這兩種轉換都可以理解爲基本可區分消息傳遞方法的特殊情況(Gilmer等人,2017)。

第一步,使用特定於關係的轉換,通過彙總局部鄰近信息(在這種情況下,過去和將來上下文窗口大小指定的鄰居),爲頂點vi計算一個新的特徵向量h(1)i。 靈感來自(Schlichtkrull等人,2018):
在這裏插入圖片描述
其中,αij和αii是邊權重,Nri表示關係r∈R下頂點i的相鄰索引。ci,r是問題特定的歸一化函數,可以預先設置,因此 或可以在基於梯度的學習設置中自動學習。 σ是激活函數,例如ReLU,W(1)r和W(1)0是轉換的可學習參數。 在第二步中,將基於本地領域的另一個變換應用於第一步的輸出,其中,W(2)和W(2)0是這些變換的參數,而σ是激活函數。
在這裏插入圖片描述
等式(2)和(3)的這種轉換棧有效地累積了局部鄰域(鄰域的特徵)的歸一化總和,即圖中每個話語的鄰域說話者信息。 自連接可確保自相關特徵轉換。

情感分類器:上下文編碼的特徵向量gi(來自順序編碼器)和h(2)i(來自說話者級編碼器)被級聯,並且基於相似度的注意力機制被應用於獲得最終的話語表達:
在這裏插入圖片描述
最後,使用完全連接的網絡對話語進行分類:
在這裏插入圖片描述
在這裏插入圖片描述
表1:ps(ui)和ps(uj)表示說話者ui和uj。 對話中2個不同的話語人表示2 * M2 =2 * 22 =8個不同的關聯類型。 最右邊的列表示具有最左邊的列表示的關係類型的構成邊的頂點的索引。

訓練設置:我們使用分類交叉熵和L2正則化作爲訓練期間的損失(L)度量:
在這裏插入圖片描述
其中N是樣本/對話的數量,c(i)是樣本i中話語的數量,Pi,j是對話的話語j的情感標籤的概率分佈,yi,j是話語的預期類別標籤 對話框i的j,λ是L2穩壓器權重,θ是所有可訓練參數的集合。 我們使用了基於隨機梯度下降的Adam(Kingma and Ba,2014)優化器來訓練我們的網絡。 使用網格搜索對超參數進行了優化。

4訓練設置
4.1 訓練數據集
本文使用IEMOCAP(2008),AVEC(2012) ,MELD(2019)三種數據集,進行訓練。
下表爲三種數據集的對話數量,話語數量。
在這裏插入圖片描述
其中IEMOCAP,AVEC沒有劃分訓練集和驗證集,本文就使用訓練集10%作爲驗證集。
4.2 基準模型
基準模型共有以下幾種:CNN(2014) ,Memnet(2015),c-LSTM(2017),c-LSTM+Att(2018),CMN(2018),ICON(2018),DialogueRNN(2019).
在這裏插入圖片描述
在這裏插入圖片描述

以下是AVEC數據集和MELD數據集的效果圖
在這裏插入圖片描述
下表是順序編碼和說話者級別編碼各種組合之後的數據
在這裏插入圖片描述

下表是說話者依賴關係和時間依賴關係的各種組合數據
在這裏插入圖片描述

5.5 對出現的錯誤進行分析

我們分析了預測的情緒標籤,發現錯誤分類通常是類似的情緒類別。 在混淆矩陣中,我們觀察到我們的模型將“沮喪”的幾個樣本誤分類爲“憤怒”和“中立”。 這是由於沮喪和憤怒之間的細微差別。 此外,我們還觀察到類似的“興奮”樣本誤分類爲“快樂”和“中性”。 我們在實驗中使用的所有數據集都是多峯的。 幾句話,例如“好。 是的,帶有非中性情緒的人被歸類爲錯誤的,因爲我們在實驗中沒有利用音頻和視覺方式。 在這種話語中,我們發現了音頻和視頻(在本例中,高音調和皺着眉頭的表情)形式,提供了關鍵信息來檢測潛在的情感(在上述話語中感到沮喪),而DialogueGCN只是無法理解 看文本的上下文。

6 結論

在這項工作中,我們提出了對話圖卷積網絡(DialogueGCN),該模型可以改善相互之間和自身的依存關係,從而改善上下文理解,從而在對話中進行話語級情感檢測。 在三個基準ERC數據集上,DialogueGCN的表現明顯優於強大的基準和現有技術水平。 未來的工作將着重於將多模式信息納入DialogueGCN,說話者級情感轉移檢測以及對話情感推理的概念基礎。 我們還計劃在對話系統中使用Dia logueGCN生成情感響應。

發佈了60 篇原創文章 · 獲贊 16 · 訪問量 2萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章