- noise generalization:
提高降噪模型對噪聲的泛化性,主要還是通過增加噪聲數據的多樣性(可以收集不同噪聲數據/或對噪聲數據做perturbation)
噪聲數據集:
- sound-ideas 包含各種噪聲類型,但是要收費 https://www.sound-ideas.com/
- freesound 做freesound的聲音分類包含很多喚醒噪聲: https://zenodo.org/record/2552860#.XpUoo1MzZTa
- Non speech noise 100條non-speech噪聲數據 http://web.cse.ohio-state.edu/pnl/corpus/HuNonspeech/HuCorpus.html
- Urben sound 類似freesound https://urbansounddataset.weebly.com/urbansound.html
- audiosets https://research.google.com/audioset/ontology/noise_1.html
- Speaker generation:
Speaker generation 和模型的context 關係密切。DNN model 使用更多speaker數據訓練時,效果並沒有提升,但是像rnn 這種網絡在speaker 數量增多時,效果提升比較明顯(因爲dnn 模型一般設置前後context 比較小,但rnn 這種模型結構就有long-term context,也可以利用tcn 這樣的網絡結構增加context 的大小)。