DeepFilterNet復現

原創

2024-05-08 14:25

大概框架

有兩路特徵，一個ERB特徵，另外一個是STFT之後的複數特徵。先使用ERB濾波器對ERB特徵進行增益，然後再傳入DNN模型，兩階段模型。
整體時延最低可達5ms。
這裏提到的DeepFilter，其實就是說用神經網絡對TF譜進行操作。因爲這篇文章比較早，所以叫這麼一個名字。

ERB特徵

ERB（Equivalent Rectangular Bandwidth）是一個與人耳聽覺敏感性密切相關的概念，它用於描述人耳在特定頻率下能感知的頻帶寬度。ERB 模型基於聽覺系統的生理和心理特性，尤其是內耳（耳蝸）的頻率選擇性特點。

基本概念

ERB 模型的基礎是耳蝸內部的基底膜，這是一種可以響應不同頻率的生物機械結構。不同頻率的聲音會在基底膜的不同位置產生峯值響應。每個峯值對應的頻率範圍就是一個臨界帶（Critical Band），這個帶寬可以理解爲耳蝸可以分辨兩個聲音頻率差異的最小區域。

ERB的計算

ERB帶寬的具體計算方法取決於具體的模型，但廣泛使用的一個公式是Moore和Glasberg（1983年）提出的，他們基於心理聲學實驗的結果得出以下關係式：

\[\[ \text{ERB}(f) = 24.7 \times (4.37 \times f/1000 + 1) \] \]

這裏，( f ) 是中心頻率，單位是 Hz，(\text{ERB}(f)) 的單位也是 Hz。
對於實際任務中的處理，優缺點皆有。
由於是相當於一個經驗性的成果，所以和Mel頻譜類似，只能相當於提供一個粗篩，並不能精細化學習。
優點在於對於算力的要求低，不需要更多的訓練就可以得到一個比原來好一些的結果。

ERB濾波器

基於ERB的概念，可以設計出一系列濾波器，這些濾波器的帶寬與頻率相關，模擬耳蝸對聲音的自然處理方式。這種類型的濾波器被稱爲 ERB 濾波器或者伽馬通濾波器（Gamma Tone Filter），每個濾波器覆蓋一個臨界帶寬。通過這些濾波器，音頻信號可以被分解成多個頻帶，每個頻帶大致對應人耳在該頻率下的聽覺感知。

應用

ERB 濾波器在多個領域有着廣泛的應用，包括：

聽力學研究：研究和模擬聽覺損失，開發助聽設備。
語音處理：改善語音識別系統的性能，特別是在模擬人類語音感知方面。
音樂技術：在音樂合成和音效處理中模擬更自然的聽覺效果。
心理聲學實驗：理解聽覺感知的機制，進行相關的測試和實驗。

通過這種方法，ERB 濾波器不僅可以提供與人耳聽覺特性相符的帶寬過濾，而且還能在各種應用中模擬人耳的自然聽覺反應，從而達到提高音頻處理質量和效果的目的。

具體細節

更具體的結構如圖所示。

架構細節
最高支持48khz，然後FFT幀長大概在5ms到30ms之間，重疊大概在50%。
ERB特徵使用對數能量頻譜，對它進行對數平均歸一化，衰減在1s。然後使用可配置的濾波器，主要是在頻帶數量方面。
複數頻譜特徵則使用同樣的歸一化方法。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

DeepFilterNet復現

大概框架

ERB特徵

具體細節

使用neovim打造go ide(支持代碼跳轉, 代碼補全, 實時語法檢查)

挑戰程序設計競賽 2.3章習題 poj 3046 Ant Counting

Shell/Python中的用戶名獲取

DeepFilterNet復現

[USACO16JAN]憤怒的奶牛Angry Cows (單調隊列優化dp)

[NOI2014] 魔法森林 (二分答案,並查集)

[USACO10MAR]偉大的奶牛聚集Great Cow Gat… ($dfs$,樹的遍歷)

[USACO17DEC]Barn Painting (樹形$dp$)

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結