多說話人Tacotron2

原創

2020-07-08 07:08

Hparams設置:

爲了選擇最佳的fft參數，我製作了一個griffin_lim_synthesis_tool筆記本，您可以使用它來反轉實際提取的梅爾/線性光譜圖，並選擇預處理的好壞程度。所有其他選項都在hparams.py中得到了很好的解釋，並且具有有意義的名稱，因此您可以嘗試使用它們。

Preprocessing:

Preprocessing can then be started using:

python preprocess.py

dataset can be chosen using the --dataset argument. If using M-AILABS dataset, you need to provide the language, voice, reader, merge_books and book arguments for your custom need. Default is Ljspeech.

Example M-AILABS:

python preprocess.py --dataset='M-AILABS' --language='en_US' --voice='female' --reader='mary_ann' --merge_books=False --book='northandsouth'

or if you want to use all books for a single speaker:

python preprocess.py --dataset='M-AILABS' --language='en_US' --voice='female' --reader='mary_ann' --merge_books=True

This should take no longer than a few minutes.

https://www.caito.de/2019/01/the-m-ailabs-speech-dataset/

https://github.com/carpedm20/multi-speaker-tacotron-tensorflow

突然想到speaker id可以加到decoder之後, 很多位置都加, 不只是加載decoder的輸入. 目前沒有思考怎麼去反駁他在clone中的問題.

分析:

可能本質上一樣, 但是因爲text encoder output沒有去相關性.

目前用最簡單的加入到encoder output中, 不是拼接, 是加.

scp  -r [email protected]:/home/test2 /home/test1

還是使用了拼接. (256dim)有點大.

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

嘗試nvidia的Tacotron-2和waveglow的結合, 並且着重考慮多GPU以及inference時的性能.

https://ngc.nvidia.com/catalog/model-scripts/nvidia:tacotron_2_and_waveglow_for_pytorch https://ngc.nvidia.com/catalog/

2020-07-08 07:08:35

簡單的基於Tacotron2的中英文混語言合成, 包括code-switch和voice clone. 以及深入結構設計的探討.

之前的討論 33. 韻律評測, 很重要. https://zhuanlan.zhihu.com/p/43240701 34. 復現了Tacotron2 中文和英文單語言合成, 音質滿足期望(忽略inference時間), 下一步方向在哪

2020-07-08 07:08:34

Pycharm爲核心在構建服務器端深度學習語音合成程序時的配置和技巧

目錄服務器端程序交互項目映射相關1. 簡介2. Pycharm遠程映射配置編輯器相關1. 代碼提示版本控制1. 基於PyCharm2. 網頁端簡單實例舊項目建庫服務器端程序交互項目映射相關 1. 簡介把遠程的項目映射到本地,

2020-07-08 07:08:33

FastSpeech復現, 以及自己線段樹, 分塊的想法.

2020-07-08 07:08:33

復現END-TO-END CODE-SWITCHED TTS WITH MIX OF MONOLINGUAL RECORDINGS論文, 理解以及代碼, 以及實驗結果.

Show us the samples please? By the way, you had better change the mel loss function into MAE and watch the alignment ag

2020-07-08 07:08:32

Tacotron-2-google-full-structure 以及過程中產生的靈感

1. speaker id 和 language id 放的位置: The synthesizer network uses the Tacotron 2 architecture [20], with additional inputs

2020-07-08 07:08:32

2019-9月份末論文: "Break it down into text and timbre and accent factors", 主要爲了跨語言voice clone

2020-07-08 07:08:32

搭建基於django的網頁/APT用來迭代和展示TTS

https://cloud.tencent.com/developer/article/1483982 https://www.cnblogs.com/LuckyZLi/p/9832590.html https://www.runoob.

2020-07-08 07:08:32

10月份語音合成任務安排: 商業化的普通話合成 (質量, 速度, 準確度, 韻律)

-1.0 首先趁着國慶節把9月份的任務完成, 快速整理, 難的或者繁瑣的作爲10月份任務之一, 但不再拓展, 即使拓展, 也只是先記下來, 後來發現還是太多了, 記下來的在下午去完成, 上午8到12點學習新的. 復現兩篇論文, 結構實現

2020-07-08 07:08:31

Maybe數據集ObscureMoon(閉月)

構建數據集思路 1.覆蓋儘量多的"東西". "東西"可能是字, 拼音, 音節, 需要請教. 2.詳細瞭解錄音環境, 老師的傾向. 進行傳統語音信號統計. 3.使用教育下慢音時, 如何設計語料. 4.額外思考如何使用學習強國中標準的

2020-07-08 07:08:31

接口: Phoneme的放出no-ref-no-vae/mix-phoneme版本的, 只要中文聲音

1. c++編譯並使用.so g++ demo.cpp CrystalDll.so -o main export LD_LIBRARY_PATH="./" ./main 2. 對接CrystalTTS的邊界情況和標貝數據的邊界情況以及聲韻

2020-07-08 07:08:31

使用新的v100服務器配置和注意事項

1. public key: https://blog.ipsfan.com/1492.html https://blog.csdn.net/weixin_41714277/article/details/79399270 C:\User

2020-07-08 07:08:31

Tacotron-2-voiceEncodeRnn-transferLearning(CorentinJ/Real-Time-Voice-Cloning)初始化

在Lab10上. 先跑通pre-train 1.pip install -r requirements.txt 需要去掉tensorflow那塊, 我們lab10上的不叫gpu 2.下載googleDrive中的文件. https

2020-07-08 07:08:31

VAE-Tacotron-2/1 以及 VQ-VAE的原理探討與實現.

Tacotron （yanggeng1995） An implementation of VAE Tacotron speech synthesis in TensorFlow. (https://arxiv.org/abs/1812.0

2020-07-08 07:08:31

復現兩篇論文, 結構實現細節進行說明.代碼備份, 報告完成並備份.

Google: Voice clone and code-switching cross multi-language 1.再仔細讀一遍google論文中的language id和speaker id送入Decoder大結構的細節.

2020-07-08 07:08:31

24小時熱門文章

最新文章

最新評論文章