AI爲啥能讀懂說話人的情感?

摘要:本文介紹了語音情感識別領域的發展現狀,挑戰,重點介紹了處理標註數據缺乏的問題。

本文分享自華爲雲社區《語音情感識別的應用和挑戰》,作者:SSIL_SZT_ZS。

情感在人與人的交流中扮演者重要的角色。情感識別具有極大的應用價值,成功的檢測人的情感狀態對於社交機器人、醫療、教育質量評估和一些其他的人機交互系統都有着重要意義。本文的要點有:

1、情感識別的基礎知識和應用場景。
2、語音情感識別技術的介紹以及面臨的挑戰。
3、如何解決數據缺乏問題,我們的方案是什麼。

1.什麼是情感識別?

情感是人對外部事件或對話活動的態度。人的情感一般分爲:高興、生氣、悲傷、恐懼和驚喜等。機器對採集的信號進行分析,從而得到人的情感狀態,這一過程就是情感識別。通常,能用來進行情緒識別的信號包括兩個方面,一個是生理信號如呼吸、心率和體溫,另一個是行爲表現包括面部表情、語音和姿態等等。人臉與語音得益於簡單的採集方式,經常被用來識別對象的情感。情感識別能幫助系統瞭解對象的情感狀態以及其對某個話題或事務的態度。

在人工智能(AI)產品和人的交互過程中,如果能夠準確地把握人當前的情感狀態,根據情感狀態做出迴應,可以極大地提升用戶對AI產品的體驗。這在商品推薦,輿論監控,人機對話等方面都有着重要的意義。例如,在銷售過程中,瞭解用戶對商品的滿意度,可以幫助平臺制定更好的銷售策略;在影視行業,瞭解觀衆對節目的喜怒哀樂,能幫助制定更精彩的劇情以及安排特定節目的上線時間;在人機對話中,掌握人的情感狀態可以幫助智能機器人做出恰當的回覆,並適時地表達安撫和諒解,提升用戶體驗;在輿論方面,行政部門通過了解羣衆對熱門事件的情感傾向、掌握輿論導向,從而更及時有效的進行輿情監控,爲制定政策提供支持。情感識別還能應用於許多現實的場景中。情感識別算法具有很高的研究價值。

考慮到採集難度、隱私等因素,本文的工作聚焦於使用語音來識別說話人情感的語音情感識別(SpeechEmotionRecognition,SER)任務。

2.語音情感識別技術介紹

語音是日常生活中交流的主要媒介,它不僅傳達了思想,還表達了說話人的情感狀態。語音情感識別的目標是從語音中識別出人類的情感狀態。其主要包含兩個步驟:特徵提取與分類器構建。

音頻信號輸入是近似連續的數值。提取音頻特徵通常首先對音頻進行分幀,加窗,進行短時傅里葉變換(STFT)。然後得到了維度爲T\timesDT×D的頻譜特徵,其中TT表示幀數與時間長度相關,DD是特徵維度,每個維度對應不同的頻率。有一些工作也會對此頻譜進行一些mel濾波操作。

頻譜特徵包含豐富的信息,比如說話內容、節奏、語氣、語調等等。與情感相關的語音特徵提取仍然是一個尚未成熟研究方向。深度學習的出現簡化了人工特徵提出過程,使用數據驅動的方法,利用情感標籤作爲監督信號來訓練深度模型提取與情感相關的隱含語義特徵。由於音頻輸入的序列化特點,深度特徵提取通常也有基於CNN/GRU/LSTM方法,或者基於CRNN或CNN+Attention的方法。

傳統的機器學習方法可以基於人工語音特徵或者深度語音特徵構建分類器,例如高斯混合模型(GMM),隱馬爾科夫模型(HMM),支持向量機(SVM)等經典方法。此外,得益於深度學習的發展,基於神經網絡的分類器可以與深度特徵提取器一起端到端(end-to-end)訓練,得到情感分類器。

3.語音情感識別面臨的挑戰

我們前面介紹了語音情感分析中常用的方法,但語音情感識別在實際中也面臨着一些挑戰:

  1. 情感主觀性與模糊性問題:語音情感識別是一個比較年輕的領域,在情感定義上缺乏官方標準。不同聽者對同一段語音的情感可能有不同的觀點。此外,一段語音往往有情感變化,主觀性較強,導致許多研究工作沒有普適性。
  2. 情感特徵提取和選擇問題:語音說話人各種各樣,情感類別多變,語音片段長短不一等,這些問題導致人工設計特徵無法涵蓋全部情感信息。另一方面,深度特徵雖然效果好,但不具有可解釋性。
  3. 標註數據缺乏問題:深度學習方法取得很好的性能要求大量的高質量的標註數據。由於情感的主觀性與模糊性,標註語音情感非常費時費力,同時要求大量專業人員。收集大量情感標註數據,是語音情感識別領域亟需解決的問題。

4.如何解決數據缺乏的問題?

數據是深度學習的驅動力,大規模高質量的數據是深度學習取得成功的關鍵。然而,在很多實際問題中,由於標註代價問題,只存在少量的標註數據,這嚴重限制深度學習方法的發展。隨着互聯網社交平臺的發展,每天都回生產大量的多媒體數據,大規模無標註的數據很容易獲得。這就促進了能同時使用標註數據和無標註數據的半監督學習(Semi-SupervisedLearning)方法的發展。另一方面,多媒體數據通常情況下都包含多個模態,因此也有一些工作探索利用一個模態的標註知識去加強在另一個模態上的任務的效果。下面介紹這兩種方法。

4.1半監督學習

半監督學習一般有兩個數據集,一個小規模的有標註數據集,一個大規模的無標註數據集。其目的是利用無標註數據來增強,監督學習的效果。經典半監督學習方法包含很多類別,例如self-training(自訓練算法),generativemodels(生成模型),SVMs(半監督支持向量機),graph-basedmethods(圖論方法),multiviewlearing(多視角算法)等等。下面介紹幾類主要半監督學習方法。

  • 簡單自訓練算法(self-training)
    self-training算法的步驟爲:(1)首先利用標註訓練集數據訓練分類器;(2)利用分類器對無標註數據進行分類,並計算誤差;(3)選擇分類結果中誤差較小的樣本,將分類結果作爲其標籤,加入到訓練集。循環次訓練過程,直到所有的無標註數據被標註。
  • 多視角學習(multiviewlearing)
    這是self-training算法的一種。其假設每個數據可以從不同的角度進行分類。算法步驟如下:(1)在角度用標註數據集訓練出不同的分類器;(2)用這些分類器從不同的角度對無標註數據進行分類;(3)根據多個分類結果來選出可信的無標籤樣本加入訓練集。循環前面的訓練過程。此方法的優點是不同角度的預測結果可以相互補充,從而提高分類精度。
  • 標籤傳播算法(LabelPropagationAlgorithm)
    標籤傳播算法是一種基於圖的半監督算法,通過構造圖結構來找無標籤數據和有標籤數據之間的關係,然後通過這個關係來進行標籤傳播。

在深度學習上的半監督學習方法,叫做半監督深度學習。半監督深度學習主要包括三類:Fine-tune;基於深度學習的self-training算法;半監督的方式訓練神經網絡。

Fine-tune方式,利用無標籤數據訓練網絡(重構自編碼或基於僞標籤訓練),然後使用有標籤數據在目標任務上進行微調。

基於深度學習方法的self-training,基本的步驟:(1)利用有標註數據訓練深度模型;(2)利用深度模型作爲分類器或者利用深度特徵對無標籤數據進行分類;(3)選擇執行度高的加入有標籤訓練集,重複此過程。

半監督的方法訓練深度網絡包含許多技術,例如Pseudo-Label[1],LadderNetworks[2],TemporalEnsembling[3],Meanteachers[4]還有FixMatch等等。下面我們介紹幾個主要的工作。

1.Pseudo-Label方法[1]
此方法將網絡對無標籤數據的預測結果,作爲無標籤數據的標籤,來訓練網絡。方法雖然簡單,效果卻很好。從下圖我們可以看出,加了無標籤數據之後,同一個類別的數據點聚集得更籠了。

2.TemporalEnsembling[3]
TemporalEnsembling是Pseudo-Label方法的發展。其目標是構造更好的僞標籤。下圖給出了此方法的結構圖,此方法有兩種不同的實現,即ππ-model和temporalensembling。

ππ-model的無監督代價是對同一個輸入在不同的正則或數據增強的條件下模型輸入應具有一致性,這樣可以鼓勵網絡學習數據內部的不變性。
Temporalensembling對每一次迭代的預測z_izi​進行移動平均得個\hat{z_i}zi​^​作爲無監督訓練的監督信號。

3.Meanteacher[4]
Meanteacher方法另闢蹊徑,從模型的角度提高僞標籤質量,其奉行“平均的就是最好的”原則。對每次迭代之後的student模型參數進行移動平均(weight-averaged)得到teacher模型,然後用teacher模型來構造高質量的僞標籤,來監督student模型的無標籤loss。

4.FixMatch[5]
FixMatch發揚了TemporalEnsembling方法中的一致性正則化(consistencyregularization)原則,即同一個樣本的不同增廣,模型應該得到一致的結果,從而學習數據內部的不變性。因此FixMatch方法利用弱增廣的樣本生成一個僞標籤,利用此僞標籤來監督模型對強增廣樣本的輸出。

4.2跨模態知識遷移

跨模態知識遷移基於多媒體數據中各個模態之間的內在聯繫,將標註信息由一個模態向目標模態遷移從而實現數據標註。如下圖所示,跨模態知識遷移包括視覺到語音的遷移,文本到圖像的遷移等等。下面介紹幾種經典的跨模態知識遷移工作。

1.基於跨媒體遷移的圖像情感分析[6]
此方法利用推特上成對的文本圖像數據,完成圖像情感分析任務,具體步驟如下圖。

其使用訓練好的文本情感分類器,對文本進行情感分類,然後將標籤直接給對應的圖片。然後使用具有僞標註的圖片訓練圖片情感分類器。

2.SoundNet[7]

通過預訓練的視頻對象和場景識別網絡實現從視覺模態到語音模態的知識遷移,利用遷移的標籤訓練語音模型,完成語音場景或語音對象分類。

3.EmotionRecognitioninSpeechusingCross-ModalTransferintheWild[8]

此方法利用預訓練好的人臉情感識別模型作爲teacher模型,然後利用teacher模型的預測結果來訓練語音情感識別模型。

5.我們的語音情感識別方案

這一節將介紹我們處理標註數據缺乏的方案。

聯合跨模態知識遷移與半監督學習方法

爲了解決語音情感識別領域數據缺乏的問題,我們在2021年提出了聯合跨模態知識遷移與半監督學習的架構,該方法在CH-SMIS以及IEMOCAP數據集上取得了語音情感識別任務當前最優的結果,同時我們將此工作發表在SCI一區期刊knowledge-basedsystem上發表論文Combiningcross-modalknowledgetransferandsemi-supervisedlearningforspeechemotionrecognition。下面是我們的方案的架構圖:

我們的方案基於兩個觀察:

  1. 直接跨模態標籤遷移存在誤差,因爲人臉情感與語音語音情感之間的關係十分複雜,並不是完全一致。
  2. 半監督學習方法,標註數據很少的情況下,表現並不好。模型的預測錯誤可能會不斷的得到加強,導致模型在某些類別上精度很低。

我們的方法收到了多視角學習思路的啓發,利用視頻數據中存在兩種模態,在兩個模態上識別情感,融合它們獲得更加準確的僞標籤。爲了進行語音情感識別,本方案首先提取了語音的STFT特徵,然後進行了Specaugment數據增廣。因爲Transformer在建模序列數據的成功,本方案採用了Transformer的encoder進行語音的編碼,最後利用均值池化來得到語音特徵並分類情感。

跨模態知識遷移

爲了進行跨模態情感遷移,本方案基於MobileNet模型利用大量的人臉表情數據集訓練了一個性能強大的人臉表情識別模型。使用此模型對從視頻中抽取的圖片幀進行人臉表情識別。然後將多個幀識別的結果綜合到一起得到整個視頻段的人臉表情預測結果。

半監督語音情感識別

受到FixMatch中一致性正則化假設的啓發,我們設計了半監督語音情感識別方法。具體的,此方法對語音樣本輸入採取了兩種類型的增廣,利用強增廣方法SpecAugment算法獲得到語音嚴重扭曲版頻譜特徵,利用弱增廣方法(特徵上的dropout等)得到變化不大的語音特徵。模型使用弱增廣的樣本生成僞標籤,來監督強增廣的樣本的訓練。

結合半監督學習與跨模態知識遷移

在模型的每一次迭代中,本方法利用弱增廣樣本生成一個僞標籤,然後將其與跨模態遷移的僞標籤進行融合,以提高僞標籤的質量。本工作探索了兩種融合方法,一個是加權求和,一個是多視角一致性。得到高質量的僞標籤之後,用此標籤監督強增廣樣本的訓練。

模型通過多次迭代,不斷提升僞標籤質量。

相對於半監督學習方法和跨模態方法,本方法在CH-SIMS和IEMOCAP數據集上均取得了最好的效果。結果如下:

參考文獻

[1]Pseudo-Label:TheSimpleandEfficientSemi-SupervisedLearningMethodforDeepNeuralNetworks
[2]Semi-SupervisedLearningwithLadderNetworks
[3]TemporalEnsemblingforSemi-supervisedLearning
[4]Meanteachersarebetterrolemodels:Weight-averagedconsistencytargetsimprovesemi-superviseddeeplearningresults
[5]FixMatch:SimplifyingSemi-SupervisedLearningwithConsistencyandConfidence
[6]Cross-MediaLearningforImageSentimentAnalysisintheWild
[7]SoundNet:LearningSoundRepresentationsfromUnlabeledVideo
[8]EmotionRecognitioninSpeechusingCross-ModalTransferintheWild

 

點擊關注,第一時間瞭解華爲雲新鮮技術~

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章