端點檢測 end-point detection

原創

2018-08-22 23:47

"端點測試"（end-point detection,簡稱EPD）的目標是要決定音訊開始和結束的位置，所以又可以稱爲 Speech Detection 或是VAD（Voice Activity Detection）。端點偵測在音訊處理與識別中，扮演一個重要的角色。

常見的端點偵測方法與相關的特徵參數，可以分爲兩大類：

1、時域（time domain）的方法：計算量比較小，因此比較容易移植到計算能力較差的微電腦平臺。

1）、音量：只使用音量來進行端點偵測，是最簡單的方法，但是會對氣音造成誤判。不同的音量計算方式也會造成端點偵測

結果的不同，至於是哪一種計算方式比較好，並無定論，需要靠大量的資料來測試得知。

2）、音量和過零率：以音量爲主，過零率爲輔，可以對氣音進行較精密的檢測。

2、頻域（frequency domain）的方法：計算量較大，因此比較難移植到計算能力較差的微電腦平臺。

1）、頻譜的變異數：有聲音的頻譜變化比較規律，變異數較低，可作爲判斷端點的基準。

2）、頻譜的entropy：我們也可以只用entropy達到類似以上的功能。

一、時域的方法

首先我們來介紹如何在時域進行音高追蹤。

第一種方法，是直接使用音量來進行端點偵測的方法。這是一種最簡單的方法，只要音量小於某個門檻值，我們就認定是靜音或是雜訊，至於這個門檻值如何決定，除了靠人的直覺外，比較客觀的方法，還是靠大量的測試資料來決定最佳值。

下列這個範例使用音量來對sunday.wav進行端點測試。在此範例中，我們使用4種不同方法來計算音量門檻值，並將結果畫出來以便觀察。

二、頻域的方法（略）

源地址：http://bingxinye1.blog.163.com/blog/static/16879709820118210053618/

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.