波束形成算法綜述

作者:凌逆戰

地址:https://www.cnblogs.com/LXP-Never/p/12051532.html


波束成型(Beamforming)又叫波束賦形空域濾波

作用:對多路麥克風信號進行合併處理,抑制非目標方向 的干擾信號,增強目標方向的聲音信號。

原理:調整相位陣列的基本單元參數,使得某些角度的信號獲得相長干涉,而另一些角度的信號獲得相消干涉。對各個陣元輸出信號加權求和、濾波,最終輸出期望方向的語音信號,相當於形成一個“波束”。

遠場:由於信號源到陣列的距離遠大於陣元間距,不同陣元接收信號的幅度差異較小,因此把不同陣元採集的語音信號的幅值認爲都是一樣的,只需對各陣元接收信號的相位差異進行處理即可。

近場:不同陣元接收到的信號幅度受信號源到各陣元距離差異的影響非常明顯,需考慮信號源到達不同陣元的波程差

問題:

  1. 通常的陣列處理多爲窄帶,使得傳統的窄帶信號處理方法的缺點逐漸顯現出來。語音信號的頻率範圍爲300~3400Hz,沒有經過調製過程,且高低頻相差比較大,不同陣元的相位延時與聲源的頻率關係密切,使得現有的窄帶波束形成方法不再適用
  2. 信噪比比較低和混響影響比較高的環境下難以準確估計波達方向
  3. 傳統的後置濾波只考慮散射噪聲或只從波束形成後的單通道輸出中估計噪聲不足

根據獲取加權矢量時採用的方法不同,可將波束形成方法分爲三類:

  1. 和參考信號數據無關的波束形成方法,如常規波束形成方法,這種波束形成方法通過加權取平均得到固定的陣列輸出響應,陣列輸出不受信號數據變化的影響;
  2. 使用最佳權矢量的波束形成方法,這類方法依賴於對陣列接收數據統計特性的估計,如最大信噪比準則;
  3. 可根據接收數據變化自適應地改變權矢量的波束形成方法,如最小方差無畸變響應(MVDR)波束形成、LMS算法、遞推最小二乘(RLS)算法、採樣矩陣求逆(SMI)算法等。

寬帶波束形成主要分爲時域方法頻域方法

  1. 時域方法:對每個支路進行合適的延時,對各陣元上接受信號的時間進行補償,使信號到達基陣時可以等效爲是同一波面同時到達各陣元;
  2. 頻域方法:首先將寬帶信號在頻域分解爲若干個子帶,對子帶信號進行窄帶波束形成後,通過合成得到寬帶波束輸出。

由於時域方法受到採樣精度的限制,多用於處理低頻信號,處理高頻信號更多采用頻域方法。

麥克風陣列信號處理通常由 自適應波束形成 和 後置濾波 兩個部分組成。

  在自適應波束形成和後置濾波中,準確的估計導向矢量和噪聲功率譜密度十分的關鍵。在導向矢量可估計的條件下,常用的波束形成算法包括延遲相加、最小方差無失真響應和廣義旁瓣相消器。最簡單的導向矢量估計是利用波達方向信息,除此之外,S. Gannot利用語音信號的非平穩性計算相對傳遞函數作爲導向矢量,A. Krueger使用廣義特徵值分解得到的最大特徵向量估計傳遞函數作爲導向矢量。基於最小均方誤差幅度譜估計和對數幅度譜估計是應用最爲廣泛的單通道語音增強算法之一,準確地跟蹤噪聲可以避免語音失真或噪聲殘餘,常用的噪聲跟蹤算法有最小值跟蹤算法和最小值控制遞歸平均算法。

基本原理分析

  對與麥克風陣列而言,由於各個麥克風的分佈位置不同,陣元接收的語音信號會存在一定的時間差。利用這一信息可以確定聲源的方向和位置。

  通過對齊各個通道的信號,相位差異可以將干擾部分抵消掉,增強目標語音信號。

常規波束形成算法研究

  麥克風信號以均勻線性模型爲例

  窄帶信號模型表示爲

$$\begin{array}{l}{x_{1}(t)=s(t) e^{j \omega t}} \\ {x_{2}(t)=s(t) e^{jwt} d^{j \frac{2 \pi}{\lambda} d \sin \theta}} \\ {\cdots \cdot} \\ {x_{N}(t)=s(t) e^{j \omega t} d^{j \frac{2 \pi}{\lambda}(N-1) d \sin \theta}}\end{array}$$

  將上式寫爲矩陣形式

$$X(t)=\left[\begin{array}{c}{x_{1}(t)} \\ {x_{2}(t)} \\ {\dots . .} \\ {x_{N}(t)}\end{array}\right]=s(t) e^{j \omega t}\left[\begin{array}{l}{1} \\ {e^{j \frac{2 \pi}{\lambda} d \sin \theta}} \\ {\cdots} \\ {\frac{2 \pi}{\lambda}(N-1) d \sin \theta}\end{array}\right]=s(t) a(\theta)$$

  其中,$a(\theta )$爲方向矢量或者導向矢量。波束形成後的輸出語音信號$y(t)$爲$M$個通道經處理後的接收信號加權之和。

$$y(t)=\sum_{i=1}^{M} w_{i}^{H}(t) x_{i}(t)=w^{H} x=s(t) w^{H} a(\theta)$$

  其中,$w=[w_1,w_2,...,w_N]^T$表示波束形成器的權值向量,$T$表示轉置,$H$表示共軛轉置。

  因此,多通道波束形成是對各個麥克風通道接收信號進行加權重因子係數調節並相加的過程。對各個陣元來說,信號在一瞬間的幅值相同,使用不同的權矢量$w$作加權處理,一般只做信號的相位調整,不做幅度改變。由此可知,如果空間中僅存在一個$\theta _k$方向的波信號,其導向矢量爲$a(\theta_k)$,當權重矢量取$w=a(\theta_k)$時,則輸出信號最大值$y(n)=a(\theta_k)^Ha(\theta_k)=M$。這時陣列各路信號加權相干疊加,爲經典的固定波束形成 (Fixed Beamforming)。

  • 優點:低計算複雜度、易於實現;在非相干噪聲場環境下應用較多。
  • 缺點:在相關噪聲場,存在混響等情況下效果不是很好

  無論是直接相加還是採用加不同窗函數的形式它們的權係數都是固定的。因此,要達到較好的效果需要依靠増加麥克風數量,這樣會導致成本和資源消耗的增加,而且適應性也比較差。

延遲求和波束形成 (DSB)

延遲求和波束形成 (Delay and Sum Beamforming, DSB)

原理:首先對不同麥克風信號之間的相對延遲進行補償,然後疊加延時後的信號形成一個單一的輸出。

缺點

  • 需要麥克風的數量相對較多,
  • 如果噪聲源是相干的,降噪效果會強烈地依賴於噪聲信號的到達方向,延遲求和波束形成在混響環境中的性能往往是不夠好的。

優點

  • 由於可以有效地減輕非相干噪聲,該類波束形成器仍然被廣泛使用。

E. Jan 在延遲求和的基礎上引入濾波求和波束形成器,這種結構的設計考慮了多徑效應,用匹配濾波器代替簡單的延遲補償器,具有更好的效果。

自適應波束形成算法

最小方差無失真響應波束形成(MVDR)

1969 年,J. Capon 提出了最小方差無失真響應(Minimum Variance Distortionless Response, MVDR)波束形成算法。該算法是應用得最爲廣泛的自適應波束形成方法之一。

原理:在期望信號無失真的約束條件下,選擇合適的濾波器係數,使得陣列輸出的平均功率最小化。

  MVDR的權重優化問題可以表示爲

$$\left\{\begin{array}{l}{\min _{w} w^{H} R_{x} w} \\ {\text {s.t. } w^{H} a\left(\theta_{s}\right)=1}\end{array}\right.$$

  其中,$a(\theta_s)=[a_1(\theta)...a_M(\theta)]^T$爲目標信號導向矢量,表示聲源方向和麥克風之間的傳遞函數,可以通過純淨語音信號達到每個麥克風的不同延遲時間$\tau$計算得到。$R_x$爲空間信號相關協方差矩陣,根據快拍次數估計得到。當在時間上彼此不相關的$k$個噪聲信號從不同方向到達麥克風陣元時,空間相關協方差矩陣被定義爲:

$$R_{x}(\omega)=\sum_{k=1}^{K} a\left(\omega, \theta_{k}\right) a^{H}\left(\omega, \theta_{k}\right)$$

  運用拉格朗日乘子法計算得到最優權重爲:

$$w_{\mathrm{MVDR}}\left(\omega, \theta_{s}\right)=\frac{R_{x}^{-1}(\omega) a\left(\omega, \theta_{s}\right)}{a^{H}\left(\omega, \theta_{s}\right)^{H} R_{x}^{-1}(\omega) a\left(\omega, \theta_{s}\right)}$$

  因爲約束條件是純淨語音信號無失真,即純淨語音信號是保持不變的,爲了使得輸出的方差最小化,僅僅只需要讓噪聲信號最小化。所以上式信號相關矩陣$R_x$可以用噪聲相關矩陣$R_n$替換。

  • 當$R_n$爲非相干噪聲場的相關矩陣,則MVDR退化爲延遲求和波束形成器,
  • 當$R_n$爲散射噪聲場的相關矩陣,則MVDR退化爲超指向性波束形成器。

補充:MVDR是理論上普遍採用的波束形成典型算法,在複雜環境下,由於協方差矩陣計算的不精確性算法會導致性能急劇下降。後來的研究者提出了許多基於對角加載的解決方法。這些方法解決了對角加載值不易確定且無法通過樣本更改自動調整的問題,使協方差矩陣誤差問題得到一定的改善。但是,這些算法相對比較複雜,效率較低。

線性約束最小方差( LCMV)波束形成器

1972年,L. Frost 提出了線性約束最小方差(Linearly Constrained Minimum Variance, LCMV)波束形成器。LCMV 波束形成在效果上實際是 MVDR 波束形成的擴展形式,它將後者中期望信號不受影響的這一約束擴展爲一組約束,即爲目標方向無失真同時對其它噪聲干擾方向陷零。隨後 L. Frost 基於約束最小均方自適應濾波器提出了LCMV 算法的自適應結構。

原理:在滿足一組約束的同時,使波束形成輸出(干擾信號、噪聲)的功率最小化。

  LCMV的約束條件可以表示爲:

$$\left\{\begin{array}{l}{w_{o p t}=\arg \min w^{H} R_{x} w} \\ {s . t . w^{H} C=f}\end{array}\right.$$

  其中,一組線性約束條件可以定位爲M*P維的約束矩陣C,其中麥克風數量M需要小於線性約束條件P的個數。$f$表示P*1維的約束矢量,$R_x=E[x(t)x^H(t)]$表示輸出協方差矩陣。

  採用拉格朗日乘子法計算,在接收的信號相關矩陣$R_x$存在可逆矩陣的前提下,獲得最優解爲

$$w_{LCMT}=R_x^{-1}C(C^HR_x^{-1}C)^{-1}f$$

  1. 優點:廣義約束
  2. 缺點:須知信號波達方向

補充:當LCMV方法的約束條件取$w^Ha(\theta )=1$時,演變爲最小方差無失真響應波束形成器(MVDR,minimum variance distortionless-response),其原理是在陣列輸出信號能量保持不變的約束條件下,通過調節權重係數使陣列信號輸出總功率(相關功率與非相關功率之和)達到最小。由於目標信號的強度得以保持,而噪聲的方差被最小化,可以說MVDR使陣列輸出信號的信噪比(SNR)達到最大。

廣義旁瓣相消器(GSC)

爲了避免約束性自適應算法,1982 年J. Griffiths 提出了廣義旁瓣相消器,可以證明在純延時條件下 GSC 是 LCMV 的一種等效實現結構,GSC 結構將 LCMV 的約束優化問題轉化爲了無約束的優化問題。

原理:GSC 將LCMV 權重矢量分解爲自適應權重非自適應權重兩個部分,其中自適應權重位於約束空間的正交空間中,非自適應權重位於約束子空間中

  G SC是LCMV的等效實現方式,主要由主路和輔路兩部分組成,目標信號從主路通過,噪聲和干擾從輔路通過。權矢量可表示爲

$$w=w_q-Bw_a$$

  其中$w_q=(CC^H)^{-1}Cf$爲非自適應權重,是權重矢量$w_{LCMV}$在約束子空間上的投影,約束子空間由約束矩陣C表示;$w_a=(B^HR_xB)^{-1}B^HR_xw_q$爲自適應權重,是權重矢量$w_{LCMV}$在最小方差子空間上的投影。最小方差子空間由M*(M-P)維的阻塞矩陣B表示,B的作用就是就是保證目標信號不進入輔路。組成B的列矢量處於約束子空間的正交互補空間中。由於約束矩陣和阻塞矩陣是相互正交的所以必須滿足$B^HC=0$。

  GSC波束形成的結構圖如上圖所示,其主要結構由固定波束形成、阻塞矩陣和自適應噪聲相消器構成。在GSC結構中,上支路由延時求和的固定波束形成器組成,由於是將接收信號投影到約束子空間,因此我們希望只有純淨期望語音通過。下支路由阻塞矩陣和自適應抵消器組成,由於是將接收信號投影到最小方差子空間,阻塞矩陣的輸出希望只有噪聲通過。固定波束形成器的輸出、阻塞矩陣的輸出以及自適應抵消器組成了多通道自適應濾波結構。阻塞矩陣被用來阻塞期望語音信號,令$y_c=w_q^Hx$,$z=B^Hx$,權矢量可以表示爲$w_a=R_z^{-1}p_z$,$w_a$是保證主輔路均方誤差最小的維納解。其中,$R_z=B^HRB$是$z$的協方差矩陣,$p_z=B^HRw_q$是$z$和$y_c$的互相關矢量。當$z$支路中包含較少目標信號時,GSC效果較好;但是當聲源移動或者混響比較嚴重時,$z$中包含的目標信號超過一定程度,將會產生期望信號的泄露,在接下來的自適應濾波過程中會造成噪聲信號與上支路期望語音信號相互抵消的現象,導致期望語音的失真,算法性能下降。

  所以1999 年,O. Hoshuyama 等人採用約束自適應濾波的方法代替原來的對齊相減,以及採用當期望語音存在時只更新阻塞矩陣,而當期望語音不存在的時候只更新自適應抵消器的係數來減小期望語音信號的泄露

傳遞函數廣義旁瓣對消器(TF-GSC)

2001 年,S. Gannot 考慮到房間的混響情況,在頻域提出了傳遞函數廣義旁瓣對消器。

TF-GSC 包括三個部分,

  1. 固定的波束形成器(Fix Beamforming, FBF)用來將目標信號分量對齊,
  2. 阻塞矩陣(BlockMatrix, BM)用來將目標信號進行阻塞得到噪聲參考信號,
  3. 多通道自適應噪聲消除器(Adaptive Noise Canceller, ANC)利用噪聲參考信號對固定的波束形成器輸出噪聲進行消除。

  爲了進一步提升降噪效果,許多改進的方案在波束形成算法後加入一個頻域濾波器,如維納濾波器或其他最小均方誤差(Minimum Mean Square Error, MMSE)估計器。通過在初始步驟中對信號的統計參數進行估計,然後使用這些參數來執行傳統的單信道降噪算法,如對數譜幅度估計或譜減法,即有望進一步抑制噪聲。

參數化多通道維納濾波器

  參數化多通道維納濾波是多通道維納濾波器的推廣形式,多通道維納濾波器的基本思想是最小化期望信號與輸出信號的均方誤差,但是維納濾波器不能保證輸出的信號是無失真的。通常可以引入一個參數,使得語音失真和噪聲抑制之間取得折中。參數化多通道維納濾波就是引入了一個語音失真加權參數,並在此參數的影響下最小化期望信號與濾波輸出的均方誤差,可以表示如下

$$\min _{\mathbf{w}} R{s s}\left|1-\mathrm{w}^{H} \mathrm{h}\right|^{2}+\mu \mathrm{W}^{H} R{\mathrm{nn}} \mathrm{w}$$

求解得到的波束形成係數爲

$$\mathbf{w}_{\mathrm{PMWF}}=\frac{\phi_{s s} \mathbf{R}_{\mathrm{nm}}^{-1} \mathbf{h}}{\mu+\phi_{\mathrm{ss}} \mathbf{h}^{H} \mathbf{R}_{\mathrm{nm}}^{-1} \mathbf{h}}$$

  語音失真加權參數$\mu$控制着語音失真與噪聲抑制之間的平衡, $\mu$值越接近於 1 算法的降噪能力就越強,但語音的失真程度就會越大,且當$\mu=1$時,PMWF 退化爲多通道維納濾波器從而不再保證語音的失真程度。$\mu$值越接近於 0 則語音的失真程度就越小,但算法的降噪能力會越弱,且當$\mu=0$時,PMWF 退化爲 MVDR 波束形成器。參數化多通道維納濾波算法也可以稱爲語音失真加權多通道維納濾波算法(Speech Distortion Weighted Multichannel Wiener Filter, SDW-MWF),在系統模型誤差方面,其相較於標準的 GSC 算法具有更強的魯棒性。

後置濾波技術

  當噪聲干擾信號不是點聲源或有太多的干擾噪聲從不同方向到達麥克風陣列時,波束形成器的降噪能力是有限的。同時非穩定干擾噪聲的存在也會影響自適應波束形成器對噪聲的抑制效果。在自適應波束形成的輸出後接入一個後置濾波器可以有效地抑制殘留噪聲,如非相干噪聲、散射噪聲等。由於指向性波束只能產生有限數量的陷零,這就限制了散射噪聲的抑制程度。短時譜估計的後置濾波算法基於期望信號與噪聲在時頻域的不同,而非空間位置的不同,所以可以有效地抑制散射噪聲。

維納後置濾波器

  在上一節中我們提到的多通道維納濾波實際上可以分解爲MVDR波束形成和一個單通道的維納濾波兩部分,如圖下所示,其中$w_i(k)$表示 MVDR 波束形成濾波係數。其分解過程如下所示:

首先我們令 PMWF 中的參數$\mu=1$便得到多通道的維納濾波器

$$\mathbf{w}_{\mathrm{MWF}}=\frac{\phi_{\mathrm{ss}} R{\mathrm{nn}}^{-1} \mathbf{h}}{1+\phi_{\mathrm{ss}} \mathbf{h}^{H} \mathbf{R}_{\mathrm{nm}}^{-1} \mathbf{h}}$$

利用 Woodbury 恆等式可將 MWF 分解爲如下形式

$$\mathbf{w}_{\mathrm{MWF}}=\frac{\mathbf{R}_{\mathrm{w}}^{-1} \mathbf{h}}{\mathbf{h}^{H} \mathbf{R}_{\mathrm{nn}}^{-1} \mathbf{h}} \frac{\phi_{\mathrm{ss}}}{\phi_{\mathrm{ss}}+\phi_{\mathrm{nn}}}$$

其中$\phi_{nn}=w_{MVDR}^HR_{nn}W_{MVDR}=(h^HR_{nn}^{-1})^{-1}$。通過上式可以看出,準確的估計期望信號的功率譜或噪聲信號的自相關函數是維納後置濾波算法的根本。

Zelinski 後置濾波器

  Zelinski 後置濾波器在估計$\phi_{ss}$時是基於噪聲在不同麥克風之間是無關的假設,且由不相關噪聲場產生,即$R_{nn}=\sigma _n^2I$;所有麥克風中的噪聲功率譜均相同,即$R_{n_in_i}=R_{nn}$;語音和噪聲是不相關的。由上假設可得

$$R_{y_iy_i}=\phi_{ss}h_ih_i^*+R_{nn}$$

$$R_{y_iy_j}=\phi_{ss}h_ih_j^*$$

平滑後觀測信號的自相關功率譜密度和互相關功率譜密度,可以如下遞歸估計

$$\hat{R}_{y_iy_i}(t, f) =\alpha \hat{R}_{y_iy_i}(t-1, f)+(1-\alpha) y_{i}^{*} y_{i}$$

$$\hat{R}_{y_iy_j}(t, f) =\alpha \hat{R}_{y_iy_j}(t-1, f)+(1-\alpha) y_{i}^{*} y_{j}$$

$\alpha$爲接近 1 的固定平滑因子,Zelinski 後置濾波器最後可以表達成爲

$$w_{\mathrm{Zelinski}}=\frac{\frac{2}{M(M-1)} \sum_{i=1}^{M-1} \sum_{j=i+1}^{M} \operatorname{Re}\left\{\hat{R}_{x_i, y_{j}}(t, f)\right\}}{\frac{1}{M} \sum_{i=1}^{M} \hat{R}_{y_iy_i}(t, f)}$$

其中 Re(·)表示複數的取實部操作,應用於上式是爲了確保語音的功率譜密度估計是實數。

缺點:由於 Zelinski後置濾波器在估計噪聲時並沒有考慮到前面波束形成的降噪作用,使得噪聲被過估計,因此Zelinski後置濾波器在理論上是次優的。

  U. Simmer爲了解決噪聲過估計的問題,在 Zelinski 濾波的基礎上提出了另外一種後置濾波器。在同樣的非相干噪聲場假設條件下,Simmer 後置濾波器將波束形成後輸出的自相關功率譜密度代替 Zelinski 後置濾波器的分母部分。由於在分母部分使用了波束形成輸出的自相關功率譜密度,Simmer後置濾波器被證明是在不相干噪聲信號條件下理論最優的維納後置濾波器。

問題:Zelinski 後置濾波器和 Simmer 後置濾波器僅僅只解決了在非相干噪聲場中不相關噪聲信號的抑制問題,但在實際生活中純非相干噪聲場的使用場景比較少,我們一般對常見的擴散噪聲場更感興趣。

Mc Cowan 後置濾波器

  McCowan 後置濾波並沒有假設不同麥克風之間的噪聲是不相關的,考慮到麥克風之間接收噪聲的相關性,且假設噪聲是已知的散射噪聲場,用噪聲相關函數${\Gamma _y}(f)$表示。由以上假設,麥克風接收信號的自相關和互相關噪聲功率譜密度可表示爲

$$R_{y_iy_i}=\phi_{ss}h_ih_i^*+R_{nn}$$

$$R_{y_iy_j}=\phi_{ss}h_ih_j^*+\Gamma_{ij}R_{nn}$$

  根據上式,Mc Cowan 後置濾波器最後可以表達成爲

$$w_{\text {Mecowan }}=\frac{\frac{2}{M(M-1)} \sum_{i=1}^{M-1} \sum_{j=i+1}^{M} \hat{R}_{s s}^{i j}(t, f)}{\frac{1}{M} \sum_{i=1}^{M} \hat{R}_{y_{i} y_{i}}(t, f)}$$

  其中

$$\hat{R}_{s s}^{i j}(t, f)=\frac{\operatorname{Re}\left\{\hat{R}_{y y, y}(t, f)\right\}-\frac{1}{2} \operatorname{Re}\left\{\Gamma_{i j}(f)\right\}\left[\hat{R}_{y y, t}(t, f)+\hat{R}_{y, y}(t, f)\right]}{1-\operatorname{Re}\left\{\Gamma_{i y}(f)\right\}}$$

  同樣是由於噪聲過估計問題,Mc Cowan 後置濾波器是理論次優的

  S. Lefkimmiatis採用了與 U. Simmer 相同的方法解決噪聲過估計問題。同樣是考慮到使用波束形成濾波後的輸出估計噪聲信號的自相關功率譜密度,Lefkimmiatis 後置濾波器被證明是在擴散噪聲相干函數條件下理論最優的維納後置濾波器。

最優修正對數譜幅度後置濾波器

  維納濾波器基於均方誤差準則,並不能得到最優的頻譜,更合適的方法是基於譜幅度的均方誤差對數譜幅度的均方誤差。基於這兩個準則,Y. Ephraim 提出了短時譜幅度估計器(Short-Time Spectral Amplitude, STSA) 對數譜幅度估計器 (Log Spectral Amplitude, LSA) 。I. Cohen 在對數譜幅度估計器的基礎上結合語音的存在概率提出了最優修正對數譜幅度估計器(Optimal Modified Log-Spectral Amplitude, OM-LSA)。在期望語音信號和噪聲信號經過離散傅里葉變換後,假設其傅里葉係數的實部和虛部均滿足均值爲零的高斯分佈,在此條件下基於對數短時譜幅度最小均方誤差的估計器可以分解爲MVDR自適應波束形成器後接入一個單通道的對數短時譜幅度後置濾波器。

  I. Cohen 率先將最優修正對數譜幅度估計器用於麥克風陣列後置濾波部分,其表達式如下所示

$$w_{\mathrm{OM}-\mathrm{LSA}}=\left(\frac{\xi(t, f)}{1+\xi(t, f)} \exp \left(\frac{1}{2} \int_{v(t, f)}^{\infty} \frac{e^{-t}}{t} d t\right)\right)^{p(t, f)} \cdot G_{\mathrm{min}}^{1-p(t, f)}$$

  其中$\xi(t, f)$爲先驗信噪比,$\gamma (t,f)$爲後驗信噪比,$v(t,f)=\frac{\gamma (t,f)\xi(t, f)}{1+\xi(t, f)}$,$p(t,f)$爲語音存在概率,$G_{min}$爲語音不存在時濾波器的增益下限。不同於傳統的單通道OM-LSA 算法,作爲麥克風陣列後置濾波器的 OM-LSA 算法,其語音存在概率的估計融合了空間信息,所以結果更準確。

解決方案

《基於特徵值分解的自適應波束形成及後置濾波》

1. 首先利用期望最大化算法估計期望語音信號在時頻點上存在的概率,

2. 然後推導了基於最大特徵值向量的導向矢量估計和基於最小特徵值向量的噪聲功率
譜密度估計。

思路:爲了更穩定地估計導向矢量和更精確地估計殘留噪聲。提出了基於特徵值分解的自適應波束形成和後置濾波算法。基於最大特徵向量的導向矢量估計不需要麥克風陣列的幾何位置信息,信號相關矩陣的主成分將會指向最大輸出功率方向。這樣就可以避免對目標信號方向進行直接估計,且對於混響信號具有很好的魯棒性。同時我們將使用信號相關矩陣最小特徵值對應的特徵向量對噪聲功率譜密度進行估計。利用多通道信號估計的噪聲功率譜密度相較於單通道的噪聲跟蹤更加準確。

超指向性波束形成算法(SBF)研究

  對於麥克風陣列,最關鍵的問題之一是如何處理噪聲環境中的有效信號捕獲。信號在空間中大量的反射往往會形成接近球形的各向同性噪聲場。因此,本論文在最小無失真響應(MVDR)算法的基礎上,利用各向同性散射噪聲場矩陣代替MVDR算法中的噪聲空間相關協方差矩陣,對語音信號做波束形成降噪處理。

  所有關於波束形成算法設計的主要性能指標是各類噪聲場矩陣相關函數。所謂的“超指向性”(Superdirective)是指通過最優相關函數處理,抑制來自所有方向噪聲對目標信號的影響,輸出比常規波束形成具有更高“方向性”的陣列增益信號,從而改善降噪處理效果。

參考文獻

麥克風陣列的語音增強算法研究——王曉雪

2017麥克風陣列自適應波束形成及後置濾波技術研究_夏傑

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章