GAN合成語音相關論文

原創

Cindy-W123

2020-06-19 19:42

最近在做GAN語音生成相關的東西，找了一些相關的最新的論文和資料，在這裏做一個記錄。

一、語音基礎知識

在知乎上看到了一個比較詳細的介紹，搬運過來：語音合成那些事

二、GAN合成語音（TTS）相關論文

1.Yamamoto, Ryuichi, Eunwoo Song, and Jae-Min Kim. "Parallel WaveGAN: A fast waveform generation model based on generative adversarial networks with multi-resolution spectrogram." arXiv preprint arXiv:1910.11480 (2019).

投遞2020 isscap，未公佈代碼

這篇文章介紹了一中新的免蒸餾、快速的、佔空間小的語音生成器，起名叫parallel wavegan，平行wavegan，用到了非自迴歸模型，用到了wavenet作爲生成器，對生成器loss這一塊添加了多分辨率的stft損失，不需要密度蒸餾，達到了比wavenet快幾倍的素的。主要模型框架如下圖：

2.Bińkowski, Mikołaj, et al. "High fidelity speech synthesis with adversarial networks." arXiv preprint arXiv:1909.11646 (2019).

《基於對抗網絡的高保真度語音合成》

這篇文章提出一個GAN-TTS框架，用一個前向傳播的生成器和一個集成判別器組成，集成判別器不僅分析生成語音的真實性還有發音準確性，一些判別器將語言條件也考慮到，因此可以測量生成的音頻和輸入話語之間的對應的程度，還有一些忽略細節，只能評估音頻的真實性。還可以參考這篇文章高保真質量的音頻合成。

還提出了一些衡量標準來衡量語音生成。

文中有提到現有的應用於非視覺領域的GAN 還是比較少，語音合成方面最出名的是WaveGAN 和GANSynth。這兩篇文章都有提到自迴歸模型具有一點的缺點，所以都使用了非自迴歸模型。

3.Kumar, Kundan, et al. "MelGAN: Generative Adversarial Networks for Conditional Waveform Synthesis." Advances in Neural Information Processing Systems. 2019.

代碼：https://github.com/descriptinc/melgan-neurips

這篇文章提出可以訓練GAN 來生成高質量的波形，通過測試一些框架上的改變和簡單的訓練策略來合成語音，音樂翻譯，和條件音樂合成。使用非自迴歸的模型來完成生成器。

在語音中，自動對齊特徵和梅爾頻譜是兩個常用的中間表示，因此，音頻建模通常被分爲兩階段進行：第一個模型將文本作爲輸入用中間表示，第二步是講中間表示轉化爲音頻。本文聚焦於第二階段，用梅爾頻譜作爲中間表達，轉化出音頻。

現有的梅爾頻譜轉換方法主要分爲三類：純信號處理，自迴歸模型，和非自迴歸模型。

本文的主要貢獻在於：

提出了melGAN模型，一種非自迴歸的前向傳播卷積網絡作爲生成器，據我們所知，這是第一個成功訓練GAN 並且不用其他蒸餾或者感知loss來合成波形的，並且保持了很高的質量。
證明自迴歸模型可以被並行的melGAN取代；
同時理由消融實驗證實melgan比其他的頻譜轉換方法快。

主要結構如下：

4.Neekhara, Paarth, et al. "Expediting TTS Synthesis with Adversarial Vocoding." arXiv preprint arXiv:1904.07944 (2019).

5.Juvela, Lauri, et al. "GELP: GAN-Excited Liner Prediction for Speech Synthesis from Mel-spectrogram." arXiv preprint arXiv:1904.03976 (2019).

6.Guo, Haohan, et al. "A New GAN-based End-to-End TTS Training Algorithm." arXiv preprint arXiv:1904.04775 (2019).

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

GAN合成語音相關論文

[轉帖]使用NMT和pmap解決JVM資源泄漏問題原創

Python實現大麥網搶票的四大關鍵技術點解析

Python 安裝庫指令大全

salesforce零基礎學習（一百三十八）零碎知識點小總結（十）

一款開源的.NET程序集反編譯、編輯和調試神器

關於接口協議，你必須要知道這些！

基於 Milvus + LlamaIndex 實現高級 RAG

【2024-05-21】以茶會友

Latex編輯論文入門經驗總結（2）--如何在IEEEtrans模板中插入中文

Latex編輯論文入門經驗總結（3）--IEEE access的latex排版注意點彙總

GAN合成語音相關論文

python自帶語音識別庫識別語音文件（wav）

【小技巧】如何向論文原作者索要數據集和源碼

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結