DeepFilterNet復現

大概框架

有兩路特徵,一個ERB特徵,另外一個是STFT之後的複數特徵。先使用ERB濾波器對ERB特徵進行增益,然後再傳入DNN模型,兩階段模型。
整體時延最低可達5ms。
這裏提到的DeepFilter,其實就是說用神經網絡對TF譜進行操作。因爲這篇文章比較早,所以叫這麼一個名字。

ERB特徵

ERB(Equivalent Rectangular Bandwidth)是一個與人耳聽覺敏感性密切相關的概念,它用於描述人耳在特定頻率下能感知的頻帶寬度。ERB 模型基於聽覺系統的生理和心理特性,尤其是內耳(耳蝸)的頻率選擇性特點。

基本概念

ERB 模型的基礎是耳蝸內部的基底膜,這是一種可以響應不同頻率的生物機械結構。不同頻率的聲音會在基底膜的不同位置產生峯值響應。每個峯值對應的頻率範圍就是一個臨界帶(Critical Band),這個帶寬可以理解爲耳蝸可以分辨兩個聲音頻率差異的最小區域。

ERB的計算

ERB帶寬的具體計算方法取決於具體的模型,但廣泛使用的一個公式是Moore和Glasberg(1983年)提出的,他們基於心理聲學實驗的結果得出以下關係式:

\[\[ \text{ERB}(f) = 24.7 \times (4.37 \times f/1000 + 1) \] \]

這裏,( f ) 是中心頻率,單位是 Hz,(\text{ERB}(f)) 的單位也是 Hz。
對於實際任務中的處理,優缺點皆有。
由於是相當於一個經驗性的成果,所以和Mel頻譜類似,只能相當於提供一個粗篩,並不能精細化學習。
優點在於對於算力的要求低,不需要更多的訓練就可以得到一個比原來好一些的結果。

ERB濾波器

基於ERB的概念,可以設計出一系列濾波器,這些濾波器的帶寬與頻率相關,模擬耳蝸對聲音的自然處理方式。這種類型的濾波器被稱爲 ERB 濾波器或者伽馬通濾波器(Gamma Tone Filter),每個濾波器覆蓋一個臨界帶寬。通過這些濾波器,音頻信號可以被分解成多個頻帶,每個頻帶大致對應人耳在該頻率下的聽覺感知。

應用

ERB 濾波器在多個領域有着廣泛的應用,包括:

  • 聽力學研究:研究和模擬聽覺損失,開發助聽設備。
  • 語音處理:改善語音識別系統的性能,特別是在模擬人類語音感知方面。
  • 音樂技術:在音樂合成和音效處理中模擬更自然的聽覺效果。
  • 心理聲學實驗:理解聽覺感知的機制,進行相關的測試和實驗。

通過這種方法,ERB 濾波器不僅可以提供與人耳聽覺特性相符的帶寬過濾,而且還能在各種應用中模擬人耳的自然聽覺反應,從而達到提高音頻處理質量和效果的目的。

具體細節


更具體的結構如圖所示。

  1. 架構細節
    最高支持48khz,然後FFT幀長大概在5ms到30ms之間,重疊大概在50%。
    ERB特徵使用對數能量頻譜,對它進行對數平均歸一化,衰減在1s。然後使用可配置的濾波器,主要是在頻帶數量方面。
    複數頻譜特徵則使用同樣的歸一化方法。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章