Speech separation 現在大熱的一個方向,西雅圖的騰訊一直在作者方面的研究,chime6上俞老師講了一個多小時的他們的工作就能證明該方向有多火, 當前有很多深度學習的方法如deep-clustering, PIT, utterance-PIT, conv-tasnet, dual-rnn, 效果都不錯,時頻單元到時域單元。
但會發現很多論文或者網上有的開源的代碼都需要WSJ0數據來做, 這個數據集是要錢的,很貴。 並且原有的數據準備腳本是罵matlab的,很難集成在一個項目裏面去,有些人沒有matlab更無法用。 所以我自己做了一個python的separation數據準備的腳本,並且開源出來給大家,給社區做做貢獻。
此代碼可以對所有數據集進行separation的數據準備工作, 比如很容易獲取到的timit, aishell。 要求只有你的數據集中包括了train和test兩個子目錄即可, 你用了該數據準備庫之後再去自己參考github上大多數的開源separation模型或者自己實現的separation模型都可以run的。當然你可以閱讀我裏面的代碼進行修改,代碼都很簡單,除了有一個函數比較複雜你可能看不懂。
如果覺得好,請去github給個star,此博文點個贊。 謝謝各位
該數據準備代碼的鏈接,我的github: