SpeechClassifier API 與端點檢測

[html] view plain copy

print?

<span style=“font-size:32px;”>public class SpeechClassifier extends AbstractVoiceActivityDetector
經過本類處理後的數據流中含數的爲：SpeechClassifiedData（語音和非語音），DataStartSignal信號和DataEndSignal信號。
本類的作用就是把把音頻信號分類成語音和非語音信號。實現了端點檢測的第一步。
作用：在一定程度上實現了由Bent Schmidt Nielsen 發明的端點檢測。
這個端點檢測由三個主要步驟組成。把音頻分成語音和非語音兩類，在語音的兩端插入SPEECH_START和SPEECH_END信號。移除非語音區域。
第一步，是使用Bent Schmidt Nielsen算法，把音頻分類成語音和非語音。每次當音頻數據輸入後，使用當前的音頻信號水平對平均信號水平和背景噪聲水平進行更新。如果平均的信號水平比背景噪聲水平大於（在configurable中）一個確定的門限值，則當前音頻被標記爲語音。否則被標記爲非語音。
第二步和第三步在SpeechMarker和NonSpeechDataFilter類中實現。
本類的屬性：
@S4Integer(defaultValue = 10)
public static final String PROP_FRAME_LENGTH_MS = “frameLengthInMs”;端點檢測幀的長度，以毫秒計算，一般爲10ms。
@S4Double(defaultValue = 0)
public static final String PROP_MIN_SIGNAL = “minSignal”;用來更新背景噪聲信號水平的最小的信號水平。默認爲0.
@S4Double(defaultValue = 10)
public static final String PROP_THRESHOLD = “threshold”;門限值，用來分類語音和非語音，當前的信號水平比背景噪聲的信號水平高於此門限則被認爲是語音。因此當門限值越低，會使端點檢測越敏感，也就是會把更多的音頻標記爲語音。門限值越高會把更少的音頻標記爲語音。
@S4Double(defaultValue = 0.003)
public static final String PROP_ADJUSTMENT = “adjustment”;調整因子，默認爲0.003.
統計屬性：protected long speechFrames;，protected long backgroundFrames;，protected double totalBackgroundLevel;，protected double totalSpeechLevel;
其它屬性：
protected final double averageNumber = 1;平均數字。protected double adjustment;，rotected double level;平均信號水平。 protected double background;背景信號水平。protected double minSignal; 最小的合法的信號水平。
protected double threshold;，protected float frameLengthSec;protected boolean isSpeech;
本類的構造方法：
public SpeechClassifier()，空的構造方法，獲得的屬性沒有初始化的對象。
public SpeechClassifier(int frameLengthMs, double adjustment, double threshold, double minSignal )；非空構造方法，對幀長，門限，最小信號水平，調整因子根據輸入參數進行初始化。初始化了數據處理器。把平均信號水平設爲0，背景信號水平設爲300，背景幀數設爲1，語音幀數設爲1，總的語音信號水平設爲0，總的背景信號水平設爲0.
本類的方法：
public void newProperties(PropertySheet ps)；與非空構造方法對屬性的設置有着相同的結果。
public void initialize()；初始化了數據處理器和水平跟蹤端點檢測。把平均信號水平設爲0，背景信號水平設爲300，背景幀數設爲1，語音幀數設爲1，總的語音信號水平設爲0，總的背景信號水平設爲0.
protected void reset()；重置水平跟蹤到初始狀態。把平均信號水平設爲0，背景信號水平設爲300，背景幀數設爲1，語音幀數設爲1，總的語音信號水平設爲0，總的背景信號水平設爲0.
public static double logRootMeanSquare(double[] samples)；本方法完成的是，</span>

[html] view plain copy

print?

<span style=“font-size:32px;”>minSignal爲最小的合法的信號水平（能量），默認爲0。
Level爲平均信號水平（能量），開始時爲0 。
averageNumber爲平均數，默認爲1。Background爲背景信號水平（能量），開始爲300 。
adjustment調整因子（背景信號水平（能量）調整因子），只用於對背景信號能量（水平）調整，默認爲0.003。Threshold門限，默認爲10.
在本法中，對分類後的音頻數據進行的標記生成了SpeechClassifiedData對象，並計算了總共的語音幀（塊）和非語音幀（塊）的分別的數目。及總的非語音能量（水平）和語音能量。
private void resetStats ()；重置了統計屬性。使之到初始設置。非語音幀的總數目（非語音幀數）=1，語音幀的總數（語音幀數）=1，總的語音水平（能量）=0，總的背景水平（能量）=0 。
private void collectStats(boolean isSpeech)；收集統計信息爲計算信噪比提供信息。語音幀的總數，非語音幀的總數目（非語音幀數），總的語音水平（能量），總的背景水平（能量）。
public Data getData()；根據前一個數據處理器的輸入，獲得分類處理後的數據，即SpeechClassifiedData。
public boolean isSpeech()；如果當前幀是語音，則返回爲真。本方法能夠被噪聲濾波器所使用，例如用來調整噪聲頻譜的估計。
public double getSNR ()；返回爲信噪比，計算信噪比，信噪比爲：snr = (totalBackgroundLevel / backgroundFrames - totalSpeechLevel / speechFrames);即總背景能量除以背景幀數後在減去總語音能量除以語音幀。是在log域計算的。所以纔是減。
public boolean getNoisy ()；如果信噪比小於-20dB則音頻被認爲是噪聲。返回的是對輸入數據噪聲能夠破壞識別的估計。返回數據是噪聲的估計。</span>

轉:http://blog.csdn.net/taiyb/article/details/46368019

SpeechClassifier API 與端點檢測

如何使用 JS 判斷用戶是否處於活躍狀態

lightdb秒級增加列和刪除列（not null帶默認值）

lightdb數據庫超時相關控制參數

通過HPA+CronHPA組合應對業務複雜彈性伸縮場景

❤️‍🔥 Solon Cloud Event 新的事務特性與應用

lightdb mysql 8.0兼容之不可見主鍵

基於Ubuntu-22.04安裝K8s-v1.28.2實驗（四）使用域名訪問網站應用

RaisedCosineWindower API及加窗

SpeechClassifier API 與端點檢測

mybatis的條件判斷

【python】tile函數

TortoiseGit 彈出 [email protected]'s password 對話框

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結