論文翻譯:Speech Enhancement Based on the General Transfer Function GSC and Postfiltering

論文地址:基於通用傳遞函數GSC和後置濾波的語音增強

博客作者:凌逆戰

博客地址:https://www.cnblogs.com/LXP-Never/p/12232341.html


 

摘要

  在語音增強應用中,麥克風陣列後置濾波可進一步減少波束形成器輸出處的噪聲成分。在麥克風陣列結構中,最近提出的通用傳遞函數廣義旁瓣消除器(TF-GSC)在定向噪聲場中顯示出令人印象深刻的降噪能力,同時仍保持低語音失真。但是,在擴散噪聲場中,可獲得的降噪效果不明顯。當噪聲信號不穩定時,性能甚至會進一步下降。 在本文中,我們提出了三種後置濾波方法,以改善麥克風陣列的性能。 其中兩個基於單通道語音增強器,並利用了最近提出的與波束形成器輸出串聯的算法。 第三個是多通道語音增強器,它利用TF-GSC結構中構建的純噪聲組件。 這項工作集主要對後置濾波結構的評估。 做了大量實驗研究包括對各種噪聲場的客觀評估和主觀評估,證明了與單通道技術相比,多通道後置濾波的優勢。

關鍵詞:廣義旁瓣對消器(GSC),麥克風陣列,非平穩性,後置濾波,語音增強

1  引言

  最近,Gannot等人提出了對Griffiths和Jim[1]經典廣義旁瓣對消除器(GSC)的擴展,它處理任意Transfer Functions(傳遞函數,TFs)[2]-[3]。這個算法叫做TF-GSCTF-GSC雖然在定向噪聲情況下得到了良好的結果,但在非定向噪聲環境(如擴散噪聲情況[4][5])中,陣列的性能有顯著的下降。此外,由於TF-GSC算法利用了語音的非平穩性和噪聲的平穩性,因此在非平穩噪聲環境下,性能會顯著下降

  因此,在非定向和非平穩噪聲環境中使用後置濾波來提高波束形成性能。Zelinski[6]提出了基於Wiener濾波器的簡單延遲和和波束形成器的後置濾波方法。後來,後置濾波被合併到Griffiths和Jim-GSC波束形成器中[7]-[8]。其作者建議連續使用兩個後置濾波器。第一個工作在固定波束形成器分支,第二個使用GSC輸出。在定向噪聲源和擴散噪聲場的低頻段,各傳感器的噪聲分量之間存在相關性。雖然在這種情況下第一個後置濾波器變得無用,但後者抑制了噪聲。通過使用幾個諧波嵌套的子陣列結合Wiener後置濾波器,可以稍微減輕擴散噪聲場中的低頻段相關性[9]。 Marro等人[10]對該結構進行了徹底的分析。

  注意,波束形成器的輸出可能被視爲包含語音信號並被(殘留)噪聲信號污染的單個通道。本研究建議使用最先進的單麥克風語音增強算法。在[11]中,建議使用譜減法算法[12]。

  本文主要貢獻,提出並評估了另外兩種現代算法的使用。第一個是mix -maximum (MIXMAX)算法[13]-[14]第二種是最優修正的對數譜 振幅估計器(OM-LSA)[15]。然而,如果噪聲信號是擴散和非平穩的,單麥克風後置濾波器不能完全抑制它。

  Cohen和Berdugo [16]首先提出了一種處理非平穩噪聲源的方法。 這種後置濾波方法與經典的Griffiths和Jim GSC波束形成器結合使用,並且利用了波束形成器的輸出和由阻塞分支產生的噪聲參考信號,從而構成了多麥克風後置濾波。

  本文對該方法進行了擴展,並將其應用於Gannot等人提出的TF-GSC波束形成器中[2]。TF-GSC的優勢在於 即使在高度迴響的環境中,它也能夠將自身引導至所需的語音信號,並消除了所需的信號泄漏到噪聲參考分支中。 新的多麥克風後置濾波器方法在各種噪聲場中進行了評估,並與單個麥克風後置濾波器進行了比較。

  第二節介紹了問題的情況。第三節簡要回顧TF-GSC。第四節介紹了所提出的多麥克風後置濾波器。第五節對所提出的方法進行了評估,並與單麥克風後置濾波器進行了比較。第六節得出了一些結論。

2  問題表述

  在嘈雜和混響環境中,傳感器陣列接收到的信號由三部分組成。

  1. 語音信號(最初建議使用TF-GSC來增強任意非平穩信號。在此貢獻中,我們將討論僅限於語音信號,因爲後置濾波依賴於特定的語音特性)
  2. 平穩干擾信號
  3. 非平穩(暫態)噪聲分量

我們的目標是根據接收到的信號重建語音組件。因此,接收到的信號由

$$公式1:z_{m}(t)=a_{m}(t) * s(t)+n_{m}^{s}(t)+n_{m}^{t}(t) ; \quad m=1, \ldots, M$$

其中$z_m(t)$是第$m$個傳感器信號,$s(t)$是所需的語音源,表示卷積運算。$n_m^s(t)$和$n_m^t(t)$分別是穩態和瞬時噪聲分量。注意,這兩個噪聲分量由相干(定向)噪聲分量和擴散噪聲分量組成。$a_m(t)$是從語音源到第$m$個傳感器的第$m$個時變聲學傳遞函數(ATF)。利用短期頻率分析和假設時不變ATFs,我們在時頻域中具有一個向量形式

$$公式2:Z\left(t, e^{j \omega}\right)=A\left(e^{j \omega}\right) S\left(t, e^{j \omega}\right)+N_{s}\left(t, e^{j \omega}\right)+N_{t}\left(t, e^{j \omega}\right)$$

其中

$$\begin{aligned} Z^{T}\left(t, e^{j \omega}\right)=\left[Z_{1}\left(t, e^{j \omega}\right)\right.&\left.Z_{2}\left(t, e^{j \omega}\right) \quad \cdots \quad Z_{M}\left(t, \rho^{j \omega}\right)\right] \\
A^{T}\left(e^{j \omega}\right)=\left[A_{1}\left(e^{j \omega}\right)\right.& A_{2}\left(e^{j \omega}\right) \cdots \left.A_{M}\left(e^{j \omega}\right)\right] \\ 
N_{s}^{T}\left(t, e^{j \omega}\right)=\left[N_{1}^{s}\left(t, e^{j \omega}\right)\right.&\left.N_{2}^{s}\left(t, e^{j \omega}\right) \quad \cdots \quad N_{M}^{s}\left(t, e^{j \omega}\right)\right] \\ 
N_{t}^{T}\left(t, e^{j \omega}\right)=\left[N_{1}^{t}\left(t, e^{j \omega}\right)\right.&\left.N_{2}^{t}\left(t, e^{j \omega}\right) \quad \cdots \quad N_{M}^{t}\left(t, e^{j \omega}\right)\right] \end{aligned}$$

和$Z_{m}\left(t, e^{j \omega}\right), S\left(t, e^{j \omega}\right), N_{m}^{s}\left(t, e^{j \omega}\right), \text { and } N_{m}^{t}\left(t, e^{j \omega}\right)$是各自信號的短時傅里葉變換(STFT)。$A_m(e^{jw})$是第m個傳感器ATF的頻率響應,假設在分析期間是時不變的。

3  TF-GSC算法綜述

  Gannot等人提出了一種基於期望信號非平穩性的信號增強方法[2]-[3]。M個麥克風信號通過M個濾波器進行濾波,$W_m^*(t,e^{jw});m=1,...,M$(* 表示共軛),並將其輸出相加形成波束形成器輸出

$$公式3:Y\left(t, e^{j \omega}\right)=W^{\dagger}\left(t, e^{j \omega}\right) Z\left(t, e^{j \omega}\right)$$

其中$\dagger$表示共軛轉置,$W(t,e^{jw})$由下給出

$$\boldsymbol{W}^{T}\left(t, e^{j \omega}\right)=\left[W_{1}\left(t, e^{j \omega}\right) \quad W_{2}\left(t, e^{j \omega}\right) \quad \cdots \quad W_{M}\left(t, e^{j \omega}\right)\right]$$

$W(t,e^{jw})$是通過最小化輸出功率來確定的,該輸出的信號部分是期望信號$S(t,e^{jw})$,直到某個預先指定的濾波器$F^*(t,e^{jw})$(通常是簡單的延遲)。通過構建如圖1所示的GSC結構,可以有效地實現這種最小化。

圖1 通用TFs案例的GSC解決方案(TF-GSC)

  GSC解決方案由三部分組成:由$W_0^{\dagger}$實現固定波束形成器(FBF),由$^{\dagger}(e^{jw})$實現塊矩陣(BM),其構造噪聲參考信號(包括靜態和瞬態分量)和由濾波器$G(t,e^{jw})$實現的多通道噪聲消除器(NC)。調整濾波器$G(t,e^{jw})$使輸出$Y(t,e^{jw})$功率最小化,與經典的Widrow問題[17]完全相同。爲了穩定更新算法,濾波器通常被約束在FIR結構上。

  雖然對ATFs $A(e^{jw})$的精確瞭解會產生所需語音信號的無失真重建,但是已經證明,僅ATFs比$H(e^{jw})$在實踐中就足夠了。對ATFs ratio(比率)使用以下定義

$$H\left(e^{j \omega}\right)=\frac{A\left(e^{j \omega}\right)}{A_{1}\left(e^{j \omega}\right)}=\left[\begin{array}{ccc}{1} & {\frac{A_{2}\left(t, e^{j \omega}\right)}{A_{1}\left(t, e^{j \omega}\right)}} & {\cdots} & {\frac{A_{M}\left(t, e^{j \omega}\right)}{A_{1}\left(t, e^{j \omega}\right)}}\end{array}\right]$$

suboptimal(次優)的FBF塊變爲$W_0(t,e^{jw})=(\frac{H(e^{jw})}{||H(e^{jw})||^2})F(e^{jw})$。塊矩陣$H(e^{jw})$也可以通過單獨使用ATFs比率來確定[2]。圖2中總結了該算法,其中,假設ATFs比率向量是已知的。然而,在實踐中$H(e^{jw})$是未知的,應該估計。我們使用一種基於期望信號非平穩性的估計方法。分析間隔被分成多個幀,這樣期望的信號在每個幀中可以被認爲是平穩的(語音信號的短時平穩性),而$H_m(e^{jw})$在整個分析間隔中仍然被認爲是固定的。

1、TF-s ratios(比值):$\boldsymbol{H}\left(e^{j \omega}\right)=\frac{\boldsymbol{A}\left(e^{j \omega}\right)}{A_{1}\left(e^{j \omega}\right)}$

2、構造分塊矩陣,$\mathcal{H}^{\dagger}\left(e^{j \omega}\right) \boldsymbol{A}\left(e^{j \omega}\right)=0$

3、固定波束形成器 (FBF)$\mathcal{H}^{\dagger}\left(e^{j \omega}\right) \boldsymbol{A}\left(e^{j \omega}\right)=0$

  FBF 輸出$Y_{\mathrm{FBF}}\left(t, e^{j \omega}\right)=\boldsymbol{W}_{0}^{\dagger}\left(e^{j \omega}\right) \boldsymbol{Z}\left(t, e^{j \omega}\right)$

4、噪聲參考信號$\begin{array}{l}{U\left(t, e^{j \omega}\right)=\mathcal{H}^{\dagger}\left(e^{j \omega}\right) Z\left(t, e^{j \omega}\right)=\mathcal{H}^{\dagger}\left(e^{j \omega}\right) \boldsymbol{N}\left(t, e^{j \omega}\right)} \\ {\left(\text { or } U_{m}\left(e^{j \omega}\right)=Z_{m}\left(t, e^{j \omega}\right)-\frac{A_{m}\left(e^{j \omega}\right)}{A_{1}\left(e^{j \omega}\right)} Z_{1}\left(t, e^{j \omega}\right) ; m=2, \ldots, M\right)}\end{array}$

5、輸出信號$Y\left(t, e^{j \omega}\right)=Y_{\mathrm{FBF}}\left(t, e^{j \omega}\right)-G^{\dagger}\left(t, e^{j \omega}\right) \boldsymbol{U}\left(t, e^{j \omega}\right)$

6、過濾器更新,對於$m=1,....,M-1$

$${\tilde G_m}\left( {t + 1,{e^{j\omega }}} \right) = {G_m}\left( {t,{e^{j\omega }}} \right) + \mu \frac{{{U_m}\left( {t,{e^{j\omega }}} \right){Y^*}\left( {t,{e^{j\omega }}} \right)}}{{{P_{{\rm{est}}}}\left( {t,{e^{j\omega }}} \right)}}\;$$

$${G_m}\left( {t + 1,{e^{j\omega }}} \right)\quad {\hat G_m}\left( {t + 1,{e^{j\omega }}} \right)$$

$${P_{{\rm{est}}}}\left( {t,{e^{j\omega }}} \right) = \rho {P_{{\rm{est}}}}\left( {t - 1,{e^{j\omega }}} \right) + (1 - \rho )\sum\limits_m {{{\left| {{Z_m}\left( {t,{e^{j\omega }}} \right)} \right|}^2}} $$

7、根據重疊和保存方法[18],只保留非鋸齒樣本。

圖2 TF-GSC算法綜述

定義$\Phi_{z_{i i} z_{j}}^{(k)}\left(e^{j \omega}\right)$爲第$k$幀$(k=1,...K)$期間$z_i$和$z_j$(分別爲第$i$和$j$次噪聲信號觀測)之間的交叉PSD(功率譜密度)。進一步定義$\Phi_{u_mz_1}(e^{j \omega})$爲$u_m(t)$(第$m$個噪聲參考信號)和$z_1(t)$之間的交叉PSD。讓$\hat{\Phi}_{Z_{i i} j_{j}}^{(k)}\left(e^{j \omega}\right)$和$\hat{\Phi}^{(k)}_{u_mz_1}\left(e^{j \omega}\right)$表示相應的估計。將最小二乘法應用於下列超定方程組,得到$H_m(e^{jw})$的無偏估計

$$公式4:\begin{aligned} &\left[\begin{array}{c}{\hat{\Phi}_{z_{m} z_{1}}^{(1)}\left(e^{j \omega}\right)} \\ {\hat{\Phi}_{z_{m} z_{1}}^{(2)}\left(e^{j \omega}\right)} \\ {\vdots} \\ {\hat{\Phi}_{\hat{z}_{m} \tilde{z}_{1}}^{(K)}\left(e^{j \omega}\right)}\end{array}\right]=\left[\begin{array}{cc}{\hat{\Phi}_{z_{1} z_{1}}^{(1)}\left(e^{j \omega}\right)} & {1} \\ {\hat{\Phi}_{z_{1} z_{1}}^{(2)}\left(e^{j \omega}\right)} & {1} \\ {\vdots} & {} \\ {\hat{\Phi}_{z_{1} z_{1}}^{(K)}\left(e^{j \omega}\right)} & {1}\end{array}\right] \times\left[\begin{array}{c}{H_{m}\left(e^{j \omega}\right)} \\ {\Phi_{u_{m} z_{1}}\left(e^{j \omega}\right)}\end{array}\right]+\left[\begin{array}{c}{\varepsilon_{m}^{(1)}\left(e^{j \omega}\right)} \\{\varepsilon_{m}^{(2)}\left(e^{j \omega}\right)} \\ {\vdots} \\ {\varepsilon_{m}^{(K)}\left(e^{j \omega}\right)}\end{array}\right] \end{aligned}$$

其中,對每個麥克風信號$(m=2,...,M)$和頻率指數$(e^{jw})$使用一組單獨的方程,K是分析間隔內的幀數。要最小化的誤差項由$\varepsilon _m^{(k)}(e^{jw})=\Phi_{u_mz_1}(e^{jw})-\hat{\Phi}_{u_mz_1}(e^{jw});k=1,...,K.$定義

 圖3 多麥克風後置濾波的框圖

4  多麥克風後置濾波器

  在這一部分中,我們討論了在波束形成器輸出端估計噪聲PSD的問題,並提出了多麥克風後置濾波技術。圖3描述了所提出的後置濾波方法框圖。在波束形成器輸出端,利用波束形成器輸出端的瞬時功率Y與參考信號$\{U_k\}_{k=2}^M$處的瞬時功率之比,檢測出所需的語音分量,然後導出先驗語音缺失概率的估計$\hat{q}(t,e^{jw})$,基於高斯統計模型估計語音存在概率$p(t,e^{jw})$。然後,通過遞歸平滑波束形成器輸出的週期圖來估計噪聲PSD,其中語音存在概率控制時變頻率相關的平滑參數,以防止噪聲估計由於語音成分而增加。最後,通過應用OM-LSA增益函數實現波束形成器輸出的頻譜增強,該增益函數最小化了log- spectrum(對數譜)[15]的均方誤差。

  設$S$爲功率譜域中的smoothing operator(平滑算子),定義爲

$$公式5:\begin{aligned} \mathcal{S}Y\left(t, e^{j \omega}\right) &=\alpha_{s} \cdot \mathcal{S}Y\left(t-1, e^{j \omega}\right)+\left(1-\alpha_{s}\right) \sum_{\omega^{\prime}=-\Omega}^{\Omega} b\left(e^{j \omega^{\prime}}\right)\left|Y\left(t, e^{j\left(\omega-\omega^{\prime}\right)}\right)\right|^{2} \end{aligned}$$

$$公式6:\psi (t,e^{jw})=\frac{max \{{SY(t,e^{jw})-MY(t,e^{jw}),0\}}}{maax\{SU_m(t,e^{jw})-MU_m(t,e^{jw})\}_{m=2}^M,\varepsilon MY(t,e^{jw})}$$

其中$\alpha_s(0\leq \alpha_s\leq 1)$是時間平滑的遺忘因子,$b$是確定頻率平滑順序的歸一化窗口函數$\sum_{w^{\prime}=-\Omega}^{\Omega} b\left(e^{j \omega^{\prime}}\right)=1$($2\Omega $是頻率帶寬)。設$M$表示背景僞平穩噪聲PSD的最小控制遞推平均(MCRA)估計量[19],[20]。然後,我們定義一個瞬態波束參考比(TBRR)[16],如本頁底部所示,其中是一個常數(通常$\varepsilon =0.01$),防止在參考信號處沒有瞬態功率的情況下分母減小到零。這給出了波束形成器輸出處的瞬態功率與參考信號處的瞬態功率之間的比率,這表明瞬態分量更可能來自語音或環境噪聲。假設波束形成器的轉向誤差相對較低,並且干擾噪聲與期望的語音不相關,如果瞬態與期望的源相關,則TBRR通常較高[21]。對於所需的源部件,波束形成器輸出的瞬態功率明顯大於參考信號的瞬態功率。因此,(6)中的名物比分母大得多。另一方面,對於干擾瞬態,TBRR小於1,因爲至少一個參考信號的瞬態功率大於波束形成器輸出的瞬態功率。通過修改基於TBRR的語音存在概率,我們可以產生一種非平穩噪聲抑制的雙重機制:首先,通過噪聲估計的快速更新(噪聲估計的增加實質上導致較低的譜增益)。其次,通過譜增益計算(譜增益被語音存在概率指數修正[15])。

  設$\gamma_{s}\left(t, e^{j \omega}\right) \triangleq\left|Y\left(t, e^{j \omega}\right)\right|^{2} / \mathcal{M} Y\left(t, e^{j \omega}\right)$表示波束形成器輸出相對於僞平穩噪聲的後驗信噪比。那麼,只有當$\gamma_{s}\left(t, e^{j \omega}\right)$和$\psi(t,e^{jw})$都很大時,纔有可能出現語音。$\gamma _s(t,e^{jw})$的大值意味着波束形成器輸出包含一個瞬態,而TBRR指示該瞬態是期望的還是干擾的。因此

$$公式7:\hat{q}\left(t, e^{j \omega}\right)=\left\{\begin{array}{ll}{1,} & {\text { 如果} \gamma_{s}\left(t, e^{j \omega}\right) \leq \gamma_{\text {low }}} {\text { 或者} \psi\left(t, e^{j \omega}\right) \leq \psi_{\text {low }}}
\\ {\max \left\{\frac{\gamma_{\text {high }-\gamma_{s}(t, e)^{j}}}{\gamma_{\text {high }-\gamma_{\text {low }}}}\right.} {\frac{\psi_{\text {ligh }}-\psi\left(t, e^{j \omega}\right)}{\gamma_{\text {low }}}} {\text { , }}{ \frac{\psi_{\text {high }}-\psi_{\text {low }}}{\psi_{\text {high }}-\psi_{\text {low }}}} & {, 0\}, \text { 其他}}\end{array}\right.$$

可以作爲一個啓發式表達式來估計先驗語音缺失概率。它假設$\gamma _s(t,e^{jw})\leq \gamma _{low}$和$\psi(t,e^{jw})\leq \psi _{low}$都不存在語音。假設$\gamma _s(t,e^{jw})\leq \gamma _{high}$和$\psi(t,e^{jw})\leq \psi _{high}$都存在語音。常數$\psi _{low}$和$\psi _{high}$表示語音活動時在$\psi(t,e^{jw})$的不確定性,$\gamma _{low}$和$\gamma _{high}$表示與$\gamma _s(t,e^{jw})$相關的不確定性。在$\gamma _s\in [\gamma _{low},\gamma _{high}]$和$\psi \in[\psi_{low},\psi_{high}]$區域,我們假設$\hat{q}(t,e^{jw})$是$\gamma _s(t,e^{e^{jw}})$和$\psi(t,e^{jw})$的光滑雙線性函數。

  基於高斯統計模型[22],語音persence(出現)概率由

$$公式8:p\left(t, e^{j \omega}\right)=\left\{1+\frac{q\left(t, e^{j \omega}\right)}{1-q\left(t, e^{j \omega}\right)}\left(1+\xi\left(t, e^{j \omega}\right)\right) \exp \left(-v\left(t, e^{j \omega}\right)\right)\right\}^{-1}$$

其中$\xi\left(t, e^{j \omega}\right) \triangleq E\left\{\left|S\left(t, e^{j \omega}\right)\right|^{2}\right\} / \lambda\left(t, e^{j \omega}\right)$爲先驗SNR,$\lambda (t,e^{jw})$爲波束形成器輸出處的噪聲PSD(包括平穩和非平穩噪聲分量),$\xi\left(t, e^{j \omega}\right) \triangleq \frac{\gamma (t,e^{jw})\xi (t,e^{jw})}{(1+\xi(t,e^{jw}))}$$\xi\left(t, e^{j \omega}\right) \triangleq \frac{|Y(t,e^{jw})|^2}{\lambda (t,e^{jw})}$爲後驗總SNR。先驗信噪比的估計採用decision-directed(決策導向)方法(這是以Ephraim和Malah的決策導向估計的一個改進版本)[15]

$$公式9:\begin{aligned} \hat{\xi}\left(t, e^{j \omega}\right)=\alpha G_{H_{1}}^{2}\left(t-1, e^{j \omega}\right) \gamma\left(t-1, e^{j \omega}\right) +(1-\alpha) \max \left\{\gamma\left(t, e^{j \omega}\right)-1,0\right\} \end{aligned}$$

其中$\alpha$是控制噪聲降低和信號失真之間的權衡的加權因子,以及

$$公式10:G_{H_{1}}\left(t, e^{j \omega}\right) \triangleq \frac{\xi\left(t, e^{j \omega}\right)}{1+\xi\left(t, e^{j \omega}\right)} \exp \left(\frac{1}{2} \int_{v\left(t, e^{j \omega}\right)}^{\infty} \frac{e^{-x}}{x} d x\right)$$

是語音一定存在時對數譜幅度(LSA)估計器的譜增益函數[23]。

  波束形成器輸出處的噪聲估計是通過遞歸平均噪聲測量的過去譜功率值來獲得的。語音存在概率控制遞歸平均的速率。具體來說,噪聲PSD估計由

$$公式11:\begin{aligned} \hat{\lambda}\left(t+1, e^{j \omega}\right)=\tilde{\alpha}_{\lambda}(&\left.t, e^{j \omega}\right) \hat{\lambda}\left(t, e^{j \omega^{\prime}}\right)+\beta \cdot\left[1-\tilde{\alpha}_{\lambda}\left(t, e^{j \omega}\right)\right]\left|Y\left(t, e^{j \omega}\right)\right|^{2} \end{aligned}$$

其中$\tilde{\alpha }_\lambda (t,e^{jw})$是時變頻率相關的平滑參數,$\beta$是在語音不存在時補償偏差的因子[19]。平滑參數由語音存在概率$p(t,e^{jw})$和表示其最小值的常數$\alpha_{\lambda}(0<\alpha_{\lambda}<1)$決定

$$公式12:\tilde{\alpha}_{\lambda}\left(t, e^{j \omega}\right) \triangleq \alpha_{\lambda}+\left(1-\alpha_{\lambda}\right) p\left(t, e^{j \omega}\right)$$

當存在語音時,$\tilde{\alpha}_{_\lambda }(t,e^{jw})$接近1,從而防止由於語音分量而導致噪聲估計增加。在語音缺失和靜止背景噪聲或干擾瞬變的情況下,(6)中定義的TBRR相對較小(與$\psi_{low}$相比)。因此,先驗語音缺失概率(7)增加到1,語音存在概率(8)減少到0。隨着語音出現概率的降低,平滑參數變小,有利於噪聲估計的快速更新。特別地,在(11)中的噪聲估計能夠管理瞬態和穩態噪聲分量。它利用波束形成器輸出信號和參考信號的功率比來區分瞬時干擾和期望語音成分。

  最後給出了潔淨信號STFT的估計

$$公式13:\hat{S}\left(t, e^{j \omega}\right)=G\left(t, e^{j \omega}\right) Y\left(t, e^{j \omega}\right)$$

其中

$$公式14:G\left(t, e^{j \omega}\right)=\left\{G_{H_{1}}\left(t, e^{j \omega}\right)\right\}^{p\left(t, e^{j \omega}\right)} \cdot G_{\min }^{1-p\left(t, e^{j \omega}\right)}$$

是OM-LSA增益函數,$G_{min}$表示無語音時增益的下限約束。圖4總結了多通道後置濾波算法的實現。表II給出了8 kHz採樣率下各參數的典型值。

 圖4所示。多通道麥克風後置濾波算法

5 實驗設計

  在這一部分中,我們將提出的後置濾波算法應用於語音增強問題,並評估其性能。我們評估了算法在會議室場景和汽車環境中的性能,並將簡單的單麥克風後置濾波器(MIXMAX和OM-LSA)與更復雜的多麥克風算法進行了比較。

A 測試場景

  對於會議室,研究了圖5所示的場景。圍牆是一個尺寸爲5米×4米×2.8米的會議室,在房間中央的一張桌子上放置了一個線性陣列。使用了兩個揚聲器。一個用於語音源,另一個用於噪聲源。它們的位置和四個麥克風的位置如圖5的左側所示。圖的右側描繪了從語音源到第一個麥克風的脈衝響應。該響應是使用輸入信號源和接收到的麥克風信號(響應包括揚聲器)之間的最小二乘擬合來獲得的。我們注意到,在我們所有的實驗中,我們使用了實際的記錄,而沒有使用估計的脈衝響應。

 圖5  測試場景(a)在一個嘈雜的會議室裏有四個麥克風。(b)從語音源到一號麥克風的脈衝響應

  該語音源由來自德州儀器和麻省理工學院(TIMIT)數據庫[24]的四句話組成,具有不同的增益級別,如圖6左側所示。麥克風信號的輸入是通過混合語音和噪聲成分產生的,這些成分是在不同的信噪比水平下分別在麥克風上測量產生的。我們考慮了三個噪聲源。第一個是點噪聲源。第二種是擴散噪聲源,第三種是非平穩擴散噪聲源。爲了產生點噪聲源,我們通過揚聲器傳輸了一個實際的風扇噪聲記錄(低通PSD)。基於Dal-Degan和Prati[25]方法,模擬了平面PSD帶通濾波噪聲信號的全向發射,得到了擴散噪聲源。第三種是相同的擴散噪聲源,但具有交變振幅,以證明該算法處理噪聲信號中的瞬態的能力。

  汽車場景通過實際的(單獨的)語音信號錄音和汽車噪聲信號進行測試,語音信號由10個英語數字組成,如圖6右側所示。汽車的窗戶微微開着。過路的汽車和吹來的風會產生短暫的噪音。噪音的固定成分來自於道路的持續嗡嗡聲。四個麥克風安裝在側面轉向配置的遮陽板。麥克風信號由不同信噪比的語音和噪聲信號混合產生。

 圖6 乾淨的語音信號。(a)會議中有4個TIMIT句子,(b) car中有10個英文數字。

B 算法的參數

  整個系統的採樣率爲8千赫。在TF-GSC算法中,使用了以下參數。分塊濾波器$H_m(e^{jw})$由非因果FIR-s建模,在區間[90,89]內具有180個係數。對消除濾波器$G_m(e^{jw})$由區間爲250的非因果FIR-s建模[125,124]。爲了實現重疊和保存過程,使用了512個樣本的片段。對於會議室環境,系統識別程序使用13個片段,每個片段1000個樣本。在汽車環境中,有8個部分,500個部分被證明是足夠的。我們注意到,系統辨識只適用於主動語音週期,而噪聲保持平穩特性。然而,準確的語音活動檢測器(VAD)不是必要的。

  應用了三種後過濾程序,即MIXMAX、OM-LSA和多麥克風。

  對於MIXMAX算法[13],[14],幀長度被設置爲L=256(50%重疊),這對應於K=129個相關的頻箱。用於限制噪聲抵消器增益的閾值被設置爲$\delta _k=0.35$(對於$0\leq k\leq 36$)和$\delta _k=0.18$(對於$37\leq k\leq 128$),即算法增益被每個頻bin中給定的G值限制。

  對於OM-LSA算法,STFT使用256個樣本長度(32 ms)的Hamming窗口和64個樣本幀更新步驟(75%重疊幀)實現。利用改進的決策導向方法估計先驗信噪比,$\alpha=0.92$。光譜增益被限制在最小20 dB,噪聲PSD被估計使用改進的MCRA技術[19]。用於估計先驗語音缺失概率的參數值彙總在表一中(估計器及其參數在[15]中描述)。

表1 OM-LSA算法用於先驗語音缺失概率估計的參數取值

  多麥克風後過濾參數如表二所示。

表二 所提出的多麥克風後置濾波實現中的參數值

C 客觀評價

  採用三個客觀質量指標對算法性能進行了評價。

  第一個客觀的質量測量是在非活動語音期間的噪聲水平(NL),定義爲

$$NL=Mean_t\{10\log_{10}(E(t),t\in Speech\quad Nonactive)\}$$

其中$E(t)=\sum_{\tau \in T_t}y^2(\tau ),y(t)$是要評估的信號(噪聲信號或算法的輸出),$T_t$爲segment(段號)$t$對應的時間實例。注意,NL圖越低,通過相應算法得到的結果越好。

  第二個優點是加權節段信噪比(W-SNR)。該方法對頻帶內的節段信噪比進行加權。頻帶與耳臨界頻帶成比例間隔,權值根據語音感知質量進行構造。

  設$z_{1,s}(t)=\alpha_1(t)*s(t)$爲第一個麥克風中的僅語音部分,$y(t)$爲要評估的信號。進一步定義,$Z_{1,s}(t,B_k)$和$Y(t,B_k)$是$B_k$頻段的相應信號。現在,定義$SNR(t,B_k)=\frac{\sum_{\tau \in T_t}Y^2(\tau ,B_k)}{\sum_{\tau \in T_t}(Y(\tau ,B_k)-Z_{1,s}(\tau,B_k))^2}$段數$t$和頻帶$B_k$中的SNR。W-SNR定義爲

$$\begin{array}{l}{\mathrm{W}-\mathrm{SNR}}{=\mathrm{Mean}_{\mathrm{t}}\left\{10 \log _{10}\left(\sum_{\mathrm{k}} \mathrm{W}\left(\mathrm{B}_{\mathrm{k}}\right) \mathrm{SNR}\left(\mathrm{t}, \mathrm{B}_{\mathrm{k}}\right), \mathrm{t} \in \text { Speech Active }\right)\right\}}\end{array}$$

頻帶$B_k$及其對應的重要性權重$W(B_k)$按ANSI標準[26]。研究表明,與經典信噪比或分段信噪比相比,W-SNR測量與聽者感知到的質量概念更密切相關。

  第三個與平均意見評分(MOS)相關性較好的客觀語音質量度量是由

$$\begin{array}{l}{\text { LSD }} {\text { = Meant }\{\sqrt{\left.\operatorname{Mean}_{\omega}\left\{\left[20 \log _{10}\right] \mathrm{S}\left(\mathrm{t}, \mathrm{e}^{\mathrm{j} \omega}\right)\left|-20 \log _{10}\right| \mathrm{Y}\left(\mathrm{t}, \mathrm{e}^{\mathrm{j} \omega}\right) |\right]^{2}\right\}}} \quad {t \in \text { Speech Active }\}}\end{array}$$

回想一下,$S(t,e^{jw})$和$Y(t,e^{jw})$分別是輸入信號和評估信號的STFT。注意,較低的LSD級別對應於較好的性能。

 圖7 非主動語音期間的平均噪聲水平(NL)

  四種噪聲條件下的NL值如圖7所示。從圖7可以看出,對於每個噪聲源,使用多麥克風後置濾波器得到的殘差噪聲水平最低。在平穩噪聲的情況下,兩種單通道後置濾波器(MIXMAX和OM-LSA)的性能是相當的,儘管與多麥克風後置濾波器有關,它們的性能有所下降。因此,用多麥克風後過濾代替單麥克風後過濾的優點就不那麼明顯了。TF-GSC波束形成器在方向性噪聲源中取得了較好的效果,因此所有後置濾波的作用不如擴散噪聲場中的作用重要。

 圖8 主動語音期間的平均加權信噪比

  圖8給出了W-SNR的結果。同樣,一般來說,使用多麥克風後置濾波器可獲得最佳性能(最高W-SNR)。其重要性在非平穩噪聲(非平穩擴散噪聲和汽車噪聲)情況下更爲明顯。在定向(和靜止)噪聲場中,MIXMAX後置濾波器和多麥克風後置濾波器的性能幾乎相同。然而,TF-GSC在沒有任何後置濾波的情況下取得了很好的效果。LSD結果如圖9所示。很明顯,LSD質量度量的結果與前面的討論是一致的。

 圖9  活躍語音期間的平均LSD

  跟蹤LSD和W-SNR優點隨時間的變化也很有趣。在圖10中,給出了汽車噪聲情況下兩種質量測量方法的軌跡。爲了方便起見,圖中還描述了VAD決策。結果表明,在TF-GSC輸出中使用多麥克風後置濾波器可以提高性能。在非活動演講期間,這兩種質量測量方法的改善尤其令人印象深刻。

圖10 汽車噪音的LSD和W-SNR痕跡

 

D 主觀評價

  主觀質量評價是對超聲圖像的評價。從圖11所示的聲像圖中可以得出一些觀察結果。在$t=2.5$[s]和$t=4$[s]之間存在具有寬頻率成分的噪聲信號(由於超車)。波束形成器不能單獨處理這種非平穩噪聲。雖然單傳聲器後置濾波器降低了噪聲水平,但只有多傳聲器後置濾波器能給出令人滿意的結果。$t=4.2$[s]和$t=5.5$[s]之間存在風吹(低頻成分)。多傳聲器後置濾波器並不能完全消除這種干擾,但其性能優於其他算法。從聲像圖上也可以看出該算法的低失真。

  非正式的聽力測試證實了這些結論。處理過的語音信號的例子可以在[27]找到。

圖11(a)清潔汽車信號的聲像圖(b)麥克風1處有噪聲信號(c)TF-GSC

(d)TF-GSC+MIXMAX(e)TF-GSC+OM-LSA(f)微型多麥克風後置濾波器

 

6 總結

  多麥克風陣列常用於語音增強應用。衆所周知,這些陣列的預期性能有一定的侷限性,特別是當噪聲場趨於擴散時。在汽車車廂中通常假定存在擴散噪聲場。爲了進一步降低波束形成器輸出的噪聲,提出了幾種後置濾波方法。兩種方法在TF-GSC波束形成器的輸出端使用現代單麥克風語音增強器。即使用之前提出的MIXMAX和OM-LSA算法。作爲一種替代方法,一種新的多麥克風後過濾被納入TF-GSC。後一種方法利用TF-GSC中構造的噪聲參考信號來改進噪聲估計。所有的後置濾波方法都是通過客觀(降噪、加權節段信噪比和對數光譜距離)和主觀質量測量(聲波圖和非正式聽力測試)來評估的。所有後置濾波器都提高了組合系統的降噪效果,特別是在擴散噪聲領域。但是,在保持TF-GSC主輸出的低語音失真的同時,多麥克風後置濾波器的降噪效果最好。這一優點在非平穩噪聲環境中得到了強調,在非平穩噪聲環境中,改進後的噪聲估計可以得到更強的體現。

參考文獻

[1] L. J. Griffiths and C. W. Jim, An alternative approach to linearly constrained adaptive beamforming, IEEE Trans. Antennas Propagat., vol. AP-30, pp. 27 34, Jan. 1982.
[2] S. Gannot, D. Burshtein, and E. Weinstein, Signal enhancement using beamforming and nonstationarity with application to speech, IEEE Trans. Signal Processing, vol. 49, pp. 1614 1626, Aug. 2001.
[3] , Beamforming methods for multi-channel speech enhancement, in Proc. Int. Workshop Acoustic Echo Noise Control, Pocono Mannor, PA, Sept. 1999, pp. 96 99.
[4] , Theoretical analysis of the general transfer function GSC, in Proc. Int. Workshop Acoustic Echo Noise Control (IWAENC01), Darmstadt, Germany, Sept. 2001.
[5] , Analysis of the Power Spectral Deviation of the General Transfer Function GSC, IEEE Trans. Signal Processing, vol. 52, pp. 1115 1121, Apr. 2004.
[6] R. Zelinski, A microphone array with adaptive post-filtering for noise reduction in reverberant rooms, in Proc. Int. Conf. Acoustics, Speech Signal Proc., 1988, pp. 2578 2581.
[7] J. Bitzer,K.U. Simmer, and K.-D. Kammeyer, Multi-microphone noise reduction by post-filter and superdirective beamformer, in Proc. Int. Workshop Acoustic Echo Noise Control, Pocono Manor, PA, Sept. 1999, pp. 100 103.
[8] , Multi-microphone noise reduction techniques as front-end devices for speech recognition, Speech Commun., vol. 34, pp. 3 12, 2001.
[9] S. Fischer and K.-D. Kammeyer, Broadband beamforming with adaptive postfiltering for speech acquisition in noisy environment, in Proc. Int. Conf. Acoustics, Speech Signal Proc., vol. 1, Munich, Germany, 1997, pp. 359 362.
[10] C. Marro, Y. Mahieux, and K. U. Simmer, Analysis of noise reduction and dereverberation techniques based on microphone arrays with postfiltering, IEEE Trans. Speech Audio Processing, vol. 6, pp. 240 259, May 1998.
[11] J. Meyer and K. U. Simmer, Multichannel speech enhancement in a car environment using Wiener filtering and spectral subtraction, in Proc. Int. Conf. Acoustics, Speech Signal Proc.,Munich, Germany, Apr. 1997.
[12] S. F. Boll, Suppression of acoustic noise in speech using spectral subtraction, in Speech Enhancement, J. S. Lim, Ed. Englewood Cliffs, NJ: Prentice-hall, 1983, pp. 61 68.
[13] D. Burshtein and S. Gannot, Speech enhancement using a mixture- maximum model, in Proc. 6th Eur. Conf. Speech Communication Tech. EUROSPEECH, vol. 6, Budapest, Hungary, Sept. 1999, pp. 2591 2594.
[14] , Speech enhancement using a mixture-maximum model, IEEE Trans. Speech Audio Processing, vol. 10, pp. 341 351, Sept. 2002.
[15] I. Cohen and B. Berdugo, Speech enhancement for nonstationary noise environments, Signal Process., vol. 81, no. 11, pp. 2403 2418, Nov. 2001.
[16] I. Cohen and B. Bedugo, Microphone array post-filtering for nonstationary noise suppression, in Proc. Int. Conf. Acoustics, Speech Signal Proc. (ICASSP), Orlando, FL, May 2002, pp. 901 904.
[17] B. Widrow, J. R. Glover Jr., J. M. McCool, J. Kaunitz, C. S. Williams, R. H. Hearn, J. R. Zeider, E. Dong Jr., and R. C. Goodlin, Adaptive noise cancelling: principals and applications, Proc. IEEE, vol. 63, pp. 1692 1716, Dec. 1975.
[18] R. E. Crochiere, A weighted overlap-add method of short-time fourier analysis/synthesis, IEEE Trans. Acoust., Speech, Signal Processing, vol. 28, pp. 99 102, Feb. 1980.
[19] "Noise Spectrum Estimation in Adverse Environments: Improved Minima Controlled Recursive Averaging,", vol. 11, pp. 466 475, Sept. 2003.
[20] I. Cohen and B. Berdugo, Noise estimation by minima controlled recursive averaging for robust speech enhancement, IEEE Signal Processing Lett., vol. 9, pp. 12 15, Jan. 2002.
[21] Multi-Channel Post-Filtering in Non-Stationary Noise Environments, vol. 52, pp. 1149 1160, May 2004.
[22] Y. Ephraim and D. Malah, Speech enhancement using a minimum mean square error short-time spectral amplitude estimator, IEEE Trans. Acoust., Speech, Signal Processing, vol. 32, pp. 1109 1121, Dec. 1984.
[23] , Speech enhancement using a minimum mean square error logspectral amplitude estimator, IEEE Trans. Acoust., Speech, Signal Processing, vol. 33, pp. 443 445, Apr. 1985.
[24] TheDARPATIMIT Acoustic-Phonetic Continuous Speech Corpus, Nat. Inst. Standards Technology. (1991, Oct.). NIST Speech Disc 1-1.1 [CDROM]
[25] N. Dal-Degan and C. Prati, Acoustic noise analysis and speech enhancement techniques for mobile radio application, Signal Processing, vol. 15, no. 4, pp. 43 56, Jul. 1988.
[26] ANSI, Specifications for Octave-Band and Fractional-Octave-Band Analog and Digital Filters, S1.1-1986 (ASA 65-1986), 1993.
[27] S. Gannot and I. Cohen. (2002) Audio Sample Files. [Online] http://www.eng.biu.ac.il/~gannot/examples1.html
 

作者簡介:

Sharon Gannot (S 92 M 01)於1986年獲得以色列海法以色列理工學院的理學學士學位(4),並於1995年和2000年分別獲得以色列特拉維夫大學的理學碩士學位(以優等成績獲得)和博士學位,均爲電子工程專業。從1986年到1993年,他是以色列國防軍的研發負責人。2001年,他在比利時魯汶Katholieke Universiteit (ku)的電氣工程系(SISTA)擔任博士後。2002年至2003年,他在以色列理工學院電子工程學院信號與圖像處理實驗室(SIPL)從事研究和教學工作。目前,他是以色列巴伊安巴伊蘭大學工程學院的講師。他的研究興趣包括參數估計,統計信號處理,語音處理,使用單個或多麥克風陣列。他是Eurasip應用信號處理雜誌的副主編。

Israel Cohen (M 01 SM 03)分別於1990年、1993年和1998年在以色列海法的以色列理工學院(Technion Israel Institute of Technology)獲得理學士(Summa Cum Laude)、理學士(M.Sc.)和電氣工程博士學位。

  從1990年到1998年,他是以色列國防部海法拉斐爾研究實驗室的一名研究科學家。從1998年到2001年,他是耶魯大學計算機科學系的博士後研究員。自2001年以來,他一直是以色列Technion電子工程系的高級講師。他的研究興趣包括統計信號處理、聲學信號分析和建模、語音增強、噪聲估計、麥克風陣列、源定位、盲源分離、系統辨識和自適應濾波。

  科恩博士是《IEEE語音和音頻處理學報》和《IEEE信號處理快報》的副主編。

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章