A FAR-FIELD TEXT-DEPENDENT SPEAKER VERIFICATION DATABASE AND THE BASELINES

遠距離文本相關的說話人驗證數據庫和基準

Abstract

本文介紹了一個名爲HI-MIA的大型遠場相關文本說話者驗證數據庫。 我們的目標是滿足基於遠場麥克風陣列的揚聲器驗證的數據要求,因爲大多數公開可用的數據庫都是單個通道近距離對話且與文本無關。 我們的數據庫包含針對遠場方案設計的房間中340人的記錄。 通過位於不同方向和距離揚聲器的多個麥克風陣列和一個高保真近距離麥克風來捕獲錄音。 此外,我們提出了一套基於端到端神經網絡的基線系統,分別採用單通道和多通道數據進行訓練。 結果表明,該融合系統在遠場報名遠場測試任務中可實現3.29%EER,在近距離報名和遠場測試任務中可實現4.02%EER。
索引詞:開源數據庫,文本相關,多渠道,遠距離,說話者驗證

1. Introduction

說話者驗證的目的是從數字音頻信號電平驗證與已註冊目標說話者相關的說話者身份。通常,說話人驗證過程包含說話人嵌入提取模塊和驗證模塊。近年來提出了針對這兩個模塊的方法,並且揚聲器驗證的性能得到了顯着提高。此外,包括數千名演講者在內的許多開放和免費的語音數據庫也可以公開獲得。大多數數據庫(例如AISHELL2 [1],Librispeech [2],Voxceleb1&2 [3] [4])都記錄在無噪音的近距離環境中。但是,這種記錄環境與現實世界中的智能家居或物聯網應用中的遠場場景不匹配。在嘈雜和混響條件下的說話人驗證是具有挑戰性的主題之一。演講者驗證系統的性能在遠場條件下會顯着下降,在這種情況下,語音是以未知的方向和距離(通常在1m-10m之間)記錄的。在語音識別中也會出現此問題。儘管我們有用於將近距離通話語音轉換爲模擬遠場語音的仿真工具包,但與真實錄音相比,仍然存在明顯的通道不匹配。此外,前端處理方法的目標在說話者驗證和語音識別方面有所不同。因此,開發一個開放的,公開可用的遠場多通道說話者驗證數據庫至關重要。
已經提出了考慮單通道麥克風或多通道麥克風陣列的各種方法來減少混響和環境噪聲的影響。這些方法在與文本無關的自動說話者驗證(ASV)的不同級別上解決了該問題。

系統。在信號級別,使用線性預測逆調製傳遞函數[5]和加權預測誤差(WPE)[6,7]方法進行混響。針對複雜環境下的ASV系統,探索了基於深度神經網絡(DNN)的用於單通道語音增強的降噪方法[8、9、10、11]和用於多通道語音增強的波束賦形方法[6、12、13]。在特徵級別,基於子帶Hilbert包絡的特徵[14、15、16],扭曲的最小方差無失真響應(MVDR)倒譜系數[17],功率歸一化倒譜系數(PNCC)[18]和DNN瓶頸特徵[ 19]已應用於ASV系統,以抑制混響和噪聲的不利影響。在模型級別,混響與多條件訓練模型的匹配取得了良好的效果。
深度學習極大地促進了說話人驗證技術的應用。識別系統已從傳統的i-vector方法[20]顯着改進到基於DNN的x-vector方法[21]。最近,基於CNN的神經網絡[22]在說話人驗證任務中也表現良好。但是,傳統方法和深度學習方法都是需要大量訓練數據的數據驅動方法。缺乏現實世界中基於麥克風陣列的遠場數據,限制了遠場說話者驗證技術在不同場景下的開發和應用。
在本文中,我們介紹了一個名爲HI-MIA的數據庫,其中包含智能家居場景下的喚醒詞記錄。該數據庫涵蓋了340個揚聲器以及從近話麥克風到多個遠場麥克風陣列的廣泛渠道。它可用於遠場喚醒單詞識別,遠場說話者驗證和語音增強。另外,我們提供了一套說話人驗證基線系統[23],該系統在轉移學習方式下使用遠場說話人驗證數據進行了訓練。藉助通過大量近距離交談數據進行預訓練的模型,該系統在進行遠場測試的遠場註冊和進行遠場測試任務的近距離註冊方面均表現出色。

2. TheHI-MIAdatabase

HI-MIA包括兩個子數據庫,分別是具有254個發言者的話語的AISHELL-wakeup1和具有86個發言者的話語的AISHELL-2019B-eval數據集2。

2.1. AISHELL-wakeup

AISHELL喚醒數據庫具有3,936,003的喚醒時間,總計1,561.12小時。語音內容涵蓋了兩個喚醒詞,中文爲“ ni hao,mi ya(“你好,米雅”)”,英文爲“嗨,米婭”。所有話語的平均持續時間約爲1秒。該數據集在性別上相當平衡,分別有131位男性和123位女性。年齡和性別的分佈如圖2所示。在錄音過程中,在真正的智能家居環境中設置了七個錄音設備(一個近距離麥克風和六個16通道圓形麥克風陣列)。每個麥克風記錄的發聲時間爲16小時。 16通道圓形麥克風陣列以16kHz(16位)記錄波形,而近距離通話麥克風以44.1kHz(16位)記錄波形,爲高保真(HiFi)純語音記錄。
每個揚聲器記錄了160聲講話,其中120聲講話記錄在嘈雜的環境中,其餘的講話聲記錄在家庭環境中。表1中顯示了數據庫的詳細信息。
根據講話速度(正常速度,快速度和慢速度),每個發言人的錄音可以分爲三個子集。我們通過向房間添加電視,音樂和背景噪聲等噪聲源來模擬真實的智能家居場景。房間設置如圖1所示。高保真麥克風距揚聲器25釐米。圓形麥克風陣列放置在人周圍,與人的距離分別爲1m,3m和5m。對於每個揚聲器,噪聲源隨機放置在靠近麥克風陣列之一的位置。

2.2. AISHELL-2019B-eval

表1中還顯示了AISHELL-2019B評估的詳細信息。數據集包含44位男性講話者和42位女性講話者的錄音。與AISHELL喚醒不同,每個講話者記錄160聲講話,其中120聲講話記錄在安靜的環境中,其餘的講話聲記錄在嘈雜的環境中。 AISHELL-2019B-eval的房間設置與AISHELL-wakeup的房間設置相同。我們將噪聲源放置在距離揚聲器四米的固定位置,而不是將噪聲源放置在麥克風陣列中。
圖2:性別和年齡分佈
3. TheBaselineMethods 3.1。深度揚聲器嵌入系統
3.1.1。模型架構
深度演講者嵌入系統的優越性已在針對封閉式對話[21,22]和遠場場景[24,25]的獨立於文本的演講者識別中得到了證明。在本文中,我們採用深度說話者嵌入系統,該系統最初是爲與文本無關的說話者驗證而設計的,以遠場說話者驗證爲基線。在我們的工作中訓練了兩種有關多渠道和單渠道的模型。
單通道網絡結構與[22]中的相同。此框架包含三個主要組件。第一個組件是基於衆所周知的ResNet-34架構(殘差卷積神經網絡)的深層CNN結構,我們從{16,32,64,128}增加了殘差塊的寬度(通道數)到{32,64,128,256}。然後,在ResNet34之後放置一個全局統計池(GSP)層作爲編碼層,該層將功能圖轉換爲固定維度的話語級表示。 GSP的輸出通過其平均值和標準偏差進行歸一化。然後,完全連接的層將處理髮聲級別表示,然後是分類輸出層。我們在輸出層之前添加了一個比率爲0.5的壓降,以防止過度擬合。輸出層中的每個單元均指目標揚聲器。這裏採用交叉熵損失來測量驗證誤差。
該網絡使用標準隨機梯度下降(SGD)進行訓練,其動量爲0.9,權重衰減爲1e-4。我們在Pytorch中使用ReduceLROnPlateau來調整學習率,並將初始值設置爲0.01。對於每個訓練步驟,將隨機生成[200,300]間隔內的整數L,並且將小批量中的每個數據裁剪或擴展爲L幀。
訓練後,對於給定的發聲,在神經網絡的倒數第二層之後提取發聲級別的說話人嵌入。餘弦相似度和PLDA是測試過程中的後端評分方法。

3.1.2. Trainingdataaugmentationforfar-fieldASV

數據增強可以有效地提高深度說話者嵌入模型的魯棒性。 因此,我們通過添加混響和噪聲來增強數據,以模擬真實環境中的遠場語音。 這將減少訓練數據和測試數據之間的不匹配。
我們使用與[23]中相同的方法進行數據增強,並採用焦木聲學[26]模擬真實的房間記錄。 通過隨機設置房間的大小並任意定位麥克風和噪聲源的位置,我們可以獲得遠場模擬數據。 爲了獲得適當的噪聲源,我們在MUSAN數據集中選擇環境噪聲和音樂噪聲[27],並將信噪比(SNR)設置爲0-20db。

3.2。模型微調
由於我們只有有限的與文本相關的遠場演講者數據,因此,如果直接對這些數據進行訓練,則與文本相關的深度演講者嵌入模型將無法很好地學習歧視性演講者信息,並且該模型可能會過度擬合一些演講者。因此,重要的是使用大量獨立於文本的說話者數據來首先訓練基線說話者模型。
因此,基於[23],我們通過將與文本無關的深度說話者嵌入模型應用於與文本相關的模型來採用遷移學習策略。通過轉移學習,適應的文本相關模型可以利用具有大量講話者的預訓練模型的優勢,而無需從頭開始訓練整個網絡。在訓練了與文本無關的深度說話者模型之後,轉移學習使前端本地模式提取器,編碼層和嵌入提取層適應與文本相關的任務。
圖3顯示了依賴文本的深度說話者嵌入模型的轉移學習過程。
3.3。註冊數據增強
在具有遠程測試任務的近距離註冊中,註冊數據與測試數據之間的不匹配會顯着降低性能。
我們使用不同的仿真策略通過數據增強來減少不匹配。在測試中,模擬的深層演講者嵌入功能與原始的註冊嵌入功能融合在一起。

4.實驗4.1。文本獨立語料庫
AISHELL-24是一個開放且公開可用的中文普通話語音識別數據集。在這項研究中,我們使用數據集的iOS通道,其中包含來自1,997位演講者的984,907條近距離話語。我們使用數據集作爲獨立於文本的數據庫來模擬遠場數據,以預先訓練ASV模型。
.2。文本相關語料庫
在我們的實驗中選擇了普通話喚醒詞“ ni hao,mi ya”。此外,我們使用AISHELL喚醒數據作爲微調訓練數據,並使用AISHELL-2019b-EVAL作爲測試集。根據我們之前的實驗結果,AISHELL-2019B-EVAL中的最後44個人更具挑戰性,因此我們選擇了最後44個人的話語作爲測試數據。測試數據不同於[23],因此我們沒有比較本文的結果。
在本文中,我們有兩個任務,一個任務是近距離交談的註冊任務,另一個任務是遠場註冊的任務。兩項任務均使用遠場數據進行了測試。在採用近場測試進行近距離註冊的情況下,我們使用近距離HIFI麥克風的數據進行註冊。在進行遠場測試的遠場註冊的情況下,我們使用一個麥克風陣列的數據(距離揚聲器1m)進行註冊。
在試驗中,我們按比例選擇1m,3m和5m距離陣列數據作爲測試音頻。目標和非目標的密鑰比例是一對一。

4.3。基線系統和微調模型
在這項工作中,我們訓練了兩個單通道模型和一個多通道模型。這些模型的性能如表2所示。
將遠場註冊任務與近距離註冊任務進行比較,就標準遠場測試數據而言,在等誤率(EER)方面,遠場註冊任務實現了約20%的相對改進。這意味着儘管註冊後的註冊數據可能並不乾淨,但它可以更好地與測試數據匹配。表2中的基本模型(ResNet34-Cosine)顯示了AISHELL2訓練數據模型的結果,該模型通過餘弦相似度進行評分。微調模型(ResNet34-FT-Cosine)比基本模型有20%的改進。 PLDA模型(ResNet34-FT- PLDA)對通道進行了補償,改進了20%。所有結果(編號爲7,8的ID除外)都選擇了固定的輸入通道0和測試音頻數據。對於ID 7,8,融合了16個聲道的測試揚聲器嵌入功能並計算了平均值,從而提高了性能。

4.4。註冊數據增強
在表2中,與遠場測試方案的遠場註冊相比,具有遠場測試方案的近距離註冊的結果始終具有較差的性能。主要原因是註冊話語與測試話語之間的通道不匹配。因此,我們研究了註冊數據擴充,以補償註冊話語與測試話語之間的不匹配。我們使用pyroomacoustics工具包來模擬遠場語音,並使用不同數量的模擬遠場語音來增強原始的註冊語音。模擬的遠場註冊話語與原始註冊話語在嵌入級別平均。結果表明,註冊數據的增加可以縮小進行遠場測試的遠場註冊與進行遠場測試任務的近距離註冊之間的差距。
4.5。系統融合
對於融合方法,我們僅取不同系統分數的簡單平均值。我們將id 1,3,5和7的結果用於遠場註冊任務的系統融合。我們使用id 2、4、6和8的結果進行系統融合,以進行祕密對話登記任務。我們注意到,系統融合後,系統具有顯着改善,這意味着我們的系統是互補的。
AISHELL-2數據庫仍然不是很大,我們相信,如果我們使用更多獨立於文本的訓練數據來訓練基本模型,則系統的性能可以得到進一步改善
5。結論
在本文中,我們描述了在遠場場景中收集的HI-MIA數據庫。該數據庫包含多通道遠場語音數據,可用於與文本相關的遠場說話者驗證,喚醒詞檢測和語音增強。該數據庫有兩個子數據集。可以將一個名爲AISHELL-wakeup的數據用作培訓數據,將另一個名爲AISHELL-2019B-eval的數據用作開發和測試數據。此外,我們提出了幾種基準系統,並針對這兩項任務提出了遠場註冊和封閉對話環境。我們還將介紹使用有限的文本相關數據進行訓練的方法和策略以及相應的註冊數據擴充策略。結果表明,將註冊話語量增加到測試話語量可以有效地提高系統性能。

發佈了60 篇原創文章 · 獲贊 1 · 訪問量 4萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章