多說話人Tacotron2

Hparams設置:

爲了選擇最佳的fft參數,我製作了一個griffin_lim_synthesis_tool筆記本, 您可以使用它來反轉實際提取的梅爾/線性光譜圖,並選擇預處理的好壞程度。所有其他選項都在hparams.py中得到了很好的解釋,並且具有有意義的名稱,因此您可以嘗試使用它們。

Preprocessing:

Preprocessing can then be started using:

python preprocess.py

dataset can be chosen using the --dataset argument. If using M-AILABS dataset, you need to provide the language, voice, reader, merge_books and book arguments for your custom need. Default is Ljspeech.

Example M-AILABS:

python preprocess.py --dataset='M-AILABS' --language='en_US' --voice='female' --reader='mary_ann' --merge_books=False --book='northandsouth'

or if you want to use all books for a single speaker:

python preprocess.py --dataset='M-AILABS' --language='en_US' --voice='female' --reader='mary_ann' --merge_books=True

This should take no longer than a few minutes.

https://www.caito.de/2019/01/the-m-ailabs-speech-dataset/

https://github.com/carpedm20/multi-speaker-tacotron-tensorflow

突然想到speaker id可以加到decoder之後, 很多位置都加, 不只是加載decoder的輸入. 目前沒有思考怎麼去反駁他在clone中的問題.

分析: 

可能本質上一樣, 但是因爲text encoder output沒有去相關性. 

目前用最簡單的加入到encoder output中, 不是拼接, 是加.

scp  -r [email protected]:/home/test2 /home/test1

還是使用了拼接. (256dim)有點大.

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章