GAN合成語音相關論文

最近在做GAN語音生成相關的東西,找了一些相關的最新的論文和資料,在這裏做一個記錄。

一、語音基礎知識

在知乎上看到了一個比較詳細的介紹,搬運過來:語音合成那些事

二、GAN合成語音(TTS)相關論文

1.Yamamoto, Ryuichi, Eunwoo Song, and Jae-Min Kim. "Parallel WaveGAN: A fast waveform generation model based on generative adversarial networks with multi-resolution spectrogram." arXiv preprint arXiv:1910.11480 (2019).

投遞2020 isscap,未公佈代碼

這篇文章介紹了一中新的免蒸餾、快速的、佔空間小的語音生成器,起名叫parallel wavegan,平行wavegan,用到了非自迴歸模型,用到了wavenet作爲生成器,對生成器loss這一塊添加了多分辨率的stft損失,不需要密度蒸餾,達到了 比wavenet快幾倍的素的。主要模型框架如下圖:

2.Bińkowski, Mikołaj, et al. "High fidelity speech synthesis with adversarial networks." arXiv preprint arXiv:1909.11646 (2019).

《基於對抗網絡的高保真度語音合成》

這篇文章提出一個GAN-TTS框架,用一個前向傳播的生成器和一個集成判別器組成,集成判別器不僅分析生成語音的真實性還有發音準確性,一些判別器將語言條件也考慮到,因此可以測量生成的音頻和輸入話語之間的對應的程度,還有一些忽略細節,只能評估音頻的真實性。還可以參考這篇文章高保真質量的音頻合成

還提出了一些衡量標準來衡量語音生成。

文中有提到現有的應用於非視覺領域的GAN 還是比較少,語音合成方面最出名的是WaveGAN 和GANSynth。這兩篇文章都有提到自迴歸模型具有一點的缺點,所以都使用了非自迴歸模型。

3.Kumar, Kundan, et al. "MelGAN: Generative Adversarial Networks for Conditional Waveform Synthesis." Advances in Neural Information Processing Systems. 2019.

代碼:https://github.com/descriptinc/melgan-neurips

這篇文章提出可以訓練GAN 來生成高質量的波形,通過測試一些框架上的改變和簡單的訓練策略來合成語音,音樂翻譯,和條件音樂合成。使用非自迴歸的模型來完成生成器。

在語音中,自動對齊特徵和梅爾頻譜是兩個常用的中間表示,因此,音頻建模通常被分爲兩階段進行:第一個模型將文本作爲輸入用中間表示,第二步是講中間表示轉化爲音頻。本文聚焦於第二階段,用梅爾頻譜作爲中間表達,轉化出音頻。

現有的梅爾頻譜轉換方法主要分爲三類:純信號處理,自迴歸模型,和非自迴歸模型。

本文的主要貢獻在於:

  1. 提出了melGAN模型,一種非自迴歸的前向傳播卷積網絡作爲生成器,據我們所知,這是第一個成功訓練GAN 並且不用其他蒸餾或者感知loss來合成波形的,並且保持了很高的質量。
  2. 證明自迴歸模型可以被並行的melGAN取代;
  3. 同時理由消融實驗證實melgan比其他的頻譜轉換方法快。

主要結構如下:

4.Neekhara, Paarth, et al. "Expediting TTS Synthesis with Adversarial Vocoding." arXiv preprint arXiv:1904.07944 (2019).

5.Juvela, Lauri, et al. "GELP: GAN-Excited Liner Prediction for Speech Synthesis from Mel-spectrogram." arXiv preprint arXiv:1904.03976 (2019).

6.Guo, Haohan, et al. "A New GAN-based End-to-End TTS Training Algorithm." arXiv preprint arXiv:1904.04775 (2019).

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章