構建數據集思路
1.覆蓋儘量多的"東西".
"東西"可能是字, 拼音, 音節, 需要請教.
2.詳細瞭解錄音環境, 老師的傾向. 進行傳統語音信號統計.
3.使用教育下慢音時, 如何設計語料.
4.額外思考如何使用學習強國中標準的文章版TTS數據.
構建TTS標準數據集
1.建立文件夾Maybe_ObscureMoon
2.解壓文件夾zhaodan_2200.zip
把解壓出來的文件都cp到Maybe_ObscureMoon/Wave中
for x in ./*.wav
do
b=${x##*/}
#sox $b -r 22050 tmp_$b
#rm -rf $b
mv $b ../Wave
done
一共有2125個文件, 但是編號是從1.wav到2200.wav, 中間有斷的, 原因?
3.信息
這是OM的:
這是BB的:
4.處理文本.
特徵1:
發現漢字有繁體的, 不要緊吧.
特徵2:
沒有標點符號,但是有空格作爲間隔.
使用xlsx2csv.py
然後把以前的都放在__raw_data_tookit文件夾:
文本就按照LJSpeech的來, 因爲它用的比較廣泛. (其實也不用, 反正都得轉, 每次都寫一個文本處理就好)
1.%05d的寫法, 補全數字.
2.兩個文本, 一個norm前, 一個normlize後.
統計數據集特徵
變成和標貝一樣, 以LJSpeech採樣率等靠齊.
bash LikeLJSpeech_PinYin.sh