語音的風格遷移

                                                               摘要

語音的風格遷移,是指將某一說話者的音色、副語言(情緒及語調)等特點賦予到合成的語音中。例如,合成一段語音,具備央視主持人康輝的聲音特點。而在計算機視覺領域中,由於深度卷積網絡對圖像具有良好的特徵提取能力,因此圖像的風格遷移得到令人印象深刻的結果。本文對語音的風格遷移技術預研,結合圖像風格遷移技術及語音合成(TTS)的深度模型Tacotron,提出可行性方案的論述。首先對TTS技術簡單概述,根據技術的發展現狀和優劣勢,利用Tacotron模型提取文本和語音特徵,由於語音的頻率幅度體現爲聲譜圖的顏色和紋理,因此,結合圖像風格遷移的CNN模型對Tacotron模型輸出的聲譜圖進行風格遷移,最後通過Griffin-Lim算法合成音頻,實現語音的風格遷移,主要分爲以下四個步驟:

  1. 基於Tacotron模型提取的音頻特徵(Melspectrogram),把聲譜圖作爲圖像風格遷移步驟的“內容聲譜圖”
  2. 對風格語音分幀進行STFT變換,同樣提取Melspectrogram特徵,作爲圖像風格遷移步驟的“風格聲譜圖”
  3. 用CNN圖像風格遷移模型對“內容圖像”和“風格圖像”進行風格渲染,得到風格渲染後的聲譜圖
  4. 將風格渲染後的聲譜圖輸出到Griffin-Lim算法模塊合成音頻。

1. TTS技術概述

TTS技術通常包含文本分析、聲學模型、音頻合成等模塊,主要有三種技術,分別是基於波形拼接的技術、基於隱馬爾可夫模型(HMM)參數合成技術、以及基於深度卷積神經網絡的語音合成技術:

(1)基於波形拼接的語音合成技術,基於合成目標基元的上下文信息(如在短語中的位置、詞性等)從錄製的音庫中找到相似的基元。因此,前期錄製大量的音頻,應儘可能全的覆蓋所有的音節音素。波形拼接技術合成的語音聲音清晰,但基元之間不連貫,從而影響合成語音的自然度。

(2)基於HMM統計參數的語音合成,採用HMM對各個發音單元進行高斯建模,利用高斯模型的均值和方差生成語音參數,通過聲碼器輸出合成後的語音。HMM參數化的方式很關鍵,這一般需要使用迴歸樹進行模型聚類(或綁定)用於聲學和語言學相關的上下文。然而必需的上下文交叉取平均相當地降低了合成語音的質量。

(3)基於深度卷積神經網絡實現語音合成的技術,例如用深度信念網絡(DBN)替代混合高斯模型(GMM),構建文本參數到語音參數之間的映射,網絡輸出成得到GMM的參數,利用傳統HMM的思想生成語音。語音合成是連續動態的過程,需要考慮語義、詞性、語法等信息,因此與上下文信息的關聯性極強,而深度雙向長短時記憶網絡(DBLSTM-RNN)可以對長時間序列的上下文信息進行保留,預測每幀語音參數。語音的波形就是各個採樣點,當前時刻的採樣點受先前時刻採樣點的影響,存在條件概率密度函數,可用條件概率分佈的乘積來建模得到波形的聯合概率。利用這點,谷歌Wavenet將條件概率分佈用多層卷積層建模,並且添加“門控機制”和“殘差反饋”進行訓練,在多個和聲音生成相關的任務上都取得了較好的表現。而Wavenet不是一個端到端的TTS模型,對於語音合成仍需大量的語音前端處理及特徵工程。因此,研究者們提出Tacotron端到端的深度學習TTS模型。Tacotron核心是seq2seq + attention。模型的輸入爲一系列文本字向量,輸出聲譜圖, 然後在使用Griffin-Lim算法生成對應音頻。

由於Tacotron通過GRU單元構建RNN網絡,通過門控制可以很好的文本及語音的長序列上下文依賴的特點,因此,本文將模型輸出的聲譜圖作爲風格遷移的對象,用CNN模型提取聲譜圖特徵進行風格遷移,最終輸入到Griffin-Lim算法模塊,實現語音合成的風格遷移。

2. 結合Tacotron與CNN實現語音的風格遷移方法

Tacotron主要是提取出音頻的梅爾頻譜(MFCC)的特徵。MFCC是一種比較常用的音頻特徵,對於聲音來說,一個一維的時域信號,直觀上很難看出頻域的變化規律,可以使用傅里葉變化,得到頻域信息,但是時頻變換又丟失了時域信息,無法看到頻域隨時域的變化,不能很好的描述聲音,爲了解決這個問題,使用時頻分析方法如短時傅里葉變換提取語音的頻率特徵。把一段長信號分幀(傅里葉變換適用於分析平穩的信號。我們假設在較短的時間跨度範圍內,語音信號的變換是平坦的、加窗,再對每一幀做傅里葉變換(FFT),最後把每一幀的結果沿另一個維度堆疊起來,得到類似於一幅圖的二維信號形式。如果我們原始信號是聲音信號,那麼通過STFT展開得到的二維信號就是所謂的聲譜圖。

 

圖1 語音信號通過STFT得到聲譜圖

聲譜圖往往是很大的一張圖,爲了得到合適大小的聲音特徵,往往把它通過梅爾標度濾波器組(Mel-scale filter banks),變換爲梅爾頻譜。在梅爾頻譜上做倒譜分析(取對數,做DCT變換)就得到了梅爾倒譜。

將Tacotron模型與CNN模型結合成two-step模型,本文把Tacotron模型輸出的聲譜圖作爲“內容圖像”,並提取“風格語音”的聲譜圖作爲“風格圖像”實現風格遷移,把風格遷移的合成聲譜圖輸入到Griffin-Lim算法模塊合成音頻。

2.1所提的語音合成方法流程

本文所提的語音風格遷移算法主要分爲以下四個步驟:

(1)基於Tacotron模型提取的音頻特徵(Melspectrogram),把聲譜圖作爲圖像風格遷移步驟的“內容聲譜圖”

(2)對風格語音分幀進行STFT變換,同樣提取Melspectrogram特徵,作爲圖像風格遷移步驟的“風格聲譜圖”

(3)用CNN圖像風格遷移模型對“內容圖像”和“風格圖像”進行風格渲染,得到風格渲染後的聲譜圖

(4)將風格渲染後的聲譜圖輸出到Griffin-Lim算法模塊合成音頻。

 

圖2 Tacotron模型輸出的聲譜圖作爲“內容圖像”

圖3. 聲譜圖的風格遷移網絡結構

與計算機視覺領域的圖像風格遷移不同的是,爲了保證“內容聲譜圖”的“內容”完整保留下來,並且最大程度遷移“風格聲譜圖”,初始化合成圖像爲“內容聲譜圖”而非高斯白噪聲圖像。

Reference

  1. Grinstein E, Duong N Q K, Ozerov A, et al. Audio style transfer[C]//2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2018: 586-590.
  2. Zhang Y J, Pan S, He L, et al. Learning latent representations for style control and transfer in end-to-end speech synthesis[C]//ICASSP 2019-2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2019: 6945-6949.
  3. Qian K, Zhang Y, Chang S, et al. Zero-shot voice style transfer with only autoencoder loss[J]. arXiv preprint arXiv:1905.05879, 2019.
  4. Gatys L A, Ecker A S, Bethge M. Image style transfer using convolutional neural networks[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 2414-2423.
  5. https://github.com/andabi/deep-voice-conversion
  6. https://zhuanlan.zhihu.com/p/30776006
  7. https://www.andrewszot.com/blog/machine_learning/deep_learning/voice_conversion
  8. https://blog.csdn.net/qq_28006327/article/details/59129110
  9. https://zhuanlan.zhihu.com/p/106943196
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章