Hparams設置:
爲了選擇最佳的fft參數,我製作了一個griffin_lim_synthesis_tool筆記本, 您可以使用它來反轉實際提取的梅爾/線性光譜圖,並選擇預處理的好壞程度。所有其他選項都在hparams.py中得到了很好的解釋,並且具有有意義的名稱,因此您可以嘗試使用它們。
Preprocessing:
Preprocessing can then be started using:
python preprocess.py
dataset can be chosen using the --dataset argument. If using M-AILABS dataset, you need to provide the language, voice, reader, merge_books and book arguments for your custom need. Default is Ljspeech.
Example M-AILABS:
python preprocess.py --dataset='M-AILABS' --language='en_US' --voice='female' --reader='mary_ann' --merge_books=False --book='northandsouth'
or if you want to use all books for a single speaker:
python preprocess.py --dataset='M-AILABS' --language='en_US' --voice='female' --reader='mary_ann' --merge_books=True
This should take no longer than a few minutes.
https://www.caito.de/2019/01/the-m-ailabs-speech-dataset/
https://github.com/carpedm20/multi-speaker-tacotron-tensorflow
突然想到speaker id可以加到decoder之後, 很多位置都加, 不只是加載decoder的輸入. 目前沒有思考怎麼去反駁他在clone中的問題.
分析:
可能本質上一樣, 但是因爲text encoder output沒有去相關性.
目前用最簡單的加入到encoder output中, 不是拼接, 是加.
scp -r [email protected]:/home/test2 /home/test1
還是使用了拼接. (256dim)有點大.