Sound quality comparison among high-quality vocoders by using re-synthesized speech

在這裏插入圖片描述

使用重新合成的語音比較高質量聲碼器之間的音質

介紹

語音分析/合成系統已用於各種應用中,例如語音轉換[1]和統計參數語音合成[2]。這些應用程序使用基於聲碼器[3]的高質量系統,而 STRAIGHT [4]是最好的系統之一。在本文中,“聲碼器”是指語音分析/合成系統,高質量的聲碼器可將語音波形準確地分解爲基本頻率(fo),頻譜包絡和非週期性。近年來,我們提出了一種新的聲碼器,命名爲 WORLD [5]。STRAIGHT 和 WORLD都已在多個應用程序中使用,例如 Merlin 工具包[6],最近,WORLD 也已在其他應用程序中使用[7,8]。自從我們在 GitHub*上發佈 WORLD 以來,持續更新WORLD 以改善合成語音的音質,但沒有有關WORLD 當前版本性能的信息。本研究的目的是比較包括STRAIGHT 和 WORLD 的舊版本和當前版本的高質量聲碼器。爲了評估它們,有幾種方法,例如檢查語音轉換後的聲音質量和統計參數語音合成。在本文中,通過使用重新合成的語音進行了評估,以討論最基本的性能。利用獲得的結果討論了它們之間的差異以及每個聲碼器的特性。被使用了。YANG VOCODERy 也被用作現代聲碼器。我們之所以沒有使用 TANDEM-STRAIGHT [16],是因爲我們先前的研究表明它的音質明顯劣於 STRAIGHT 和 WORLD [13]。有語音分析算法可以實現高質量的語音合成,例如Nakano 等人的算法[17],但是在此評估中僅選擇了具有三個估計量的聲碼器。

舊版和當前版本的 WORLD 之間的區別

它們之間的主要區別是 fo非週期性的估計算法。Harvest 嘗試減少清音段,併爲連續 F0 建模提供可靠的fo [18]。在清音段被錯誤地識別爲濁音段的情況下,D4C 估計的非週期性通常會導致聲音質量下降。由於頻譜包絡的整個分量都來自非週期性分量,因此在整個頻帶中,非語音段的非週期性必須爲 1.0。D4C 偶爾會在較低的頻帶中給出一個較低的值,因此,週期性分量被視爲噪聲。當前版本在 D4C 中添加了一個過程,以識別濁音/清音段,並在幀具有 fo 但被識別爲清音段的情況下在整個頻帶中給出 1.0 的值。這個過程在 WORLD 的源代碼中稱爲 D4C LoveTrain。
由於發聲段包含的聲譜振動在功率譜中具有-6 dB / oct 的斜率,因此較低頻段和較高頻段之間的功率比可有效識別該段是否包含聲帶振動。100 至 4,000 Hz 的功率和 100 至 7,900 Hz 的功率分別用作較低和較高的頻帶。功率比 c 由下式給出。
在這裏插入圖片描述
其中 P(f)P(f)代表功率譜,f 代表頻率(Hz)。當前版本的WORLD 使用交流電 0.85 作爲閾值,交流電低於 0.85 的幀被標識爲清音段。在整個頻帶中,該幀的非週期性設置爲 1.0。 自 DIO 以來包括準確的濁音/清音檢測,將跳過此過程。
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述

評估方法

進行了基於 MUSHRA 的評估[19],以比較每個聲碼器的聲音質量。表 1 中顯示了用於評估的語音。從語音數
據庫 FW07 中隨機選擇了 40 個語音波形[20]。我們沒有使用較長的句子來準確地評估短期內由於錯誤導致的降級。在所有聲碼器中,將幀偏移設置爲 STRAIGHT 的默認值 1 ms,並將其默認值用於其他參數(例如下限和上限頻率)進行 fo 估計。 表 2 顯示了評估中的實驗條件,評估室使用 A 加權 SPL 爲 18 dB 的隔音室。14 名聽力正常的受試者參加了評估。通過耳機再現聲音刺激,並且聲壓級設置爲不超過 70 dB。

結果

圖 1 說明了評估結果。垂直軸表示與聲音質量相對應的 MUSHRA 分數。誤差線代表 95%置信區間。每條水平線上的值代表調整後的 p 值。在統計分析中,我們使用了 Wilcoxon 符號秩檢驗,因爲並非所有人口都可以假定爲正態分佈。根據 Bonferroni 校正計算調整後的 p 值。我們忽略了原始語音和重新合成語音之間的比較,因爲聲音質量的差異很明顯。由於僅在聲碼器之間進行了多次比較,所以對的數量爲六。因此,調整後的 p 值被計算爲原始 p 值的六倍。該圖中省略了幾個具有明顯差異的 p 值。例如,我們省略了 WORLD(收穫)和 STRAIGHT 之間的結果,因爲它們的差異大於 WORLD(收穫)和 WORLD(DIO)之間的差異。

結果表明,WORLD(harvest)在音質上明顯優於其他產品。與 STRAIGHT 和 YANG VOCODER 相比,WORLD(DIO)是最好的聲碼器。STRAIGHT 明顯優於 YANG VOCODER。爲了討論每個聲碼器的特性,我們分析了每個揚聲器的實驗結果。圖 2 說明了評估結果,評估結果在每個發言人中分別計算。WORLD(收穫)可以合成所有發言人的自然語音。與其他相比,YANG VOCODER 難以合成男性說話者的自然語音。由於經常觀察到元音中的嗡嗡聲,主要的原因似乎是頻譜包絡的準確性。爲了討論這種趨勢,每個聲碼器的累積相對頻率分佈如圖 3 所示。該圖表明,由 STRAIGHT 合成的四個語音的得分低於 20。主要原因是錯誤濁音段被錯誤地識別爲清音段。YANG VOCODER 可以從所有語音波形中準確估計 fo,但是音質相對較差。合成語音的嗡嗡聲是主要原因。在 STRAIGHT 和 YANG VOCODER 的比較中,即使看起來沒有足夠的差異,也觀察到了顯着差異。原因是平均分數之間的差異不大,但中位數之間的差異足以顯示出顯着差異。 在 WORLD(收穫)和 WORLD(DIO)之間進行比較時,在有聲/無聲段的邊界處觀察到聲音質量的差異。這種差異表明Harvest 和 D4C LoveTrain 的組合可以按預期工作。簡而言之,結果清楚地表明,WORLD 的當前版本是所有聲碼器中最好的。

結論

本文展示了幾種高質量聲碼器之間的區別。基於 MUSHRA 的評估結果表明,當前版本的 WORLD 可以達到最佳性能。在分析每個語音時,STRAIGHT 無法估計 fo 的多個語音波形。由於頻譜包絡的準確性較低,YANG VOCODER 無法完全實現自然語音。與舊版本和當前版本的 WORLD 相比,當前版本優於舊版本。下一個目標是在語音轉換和統計參數語音合成中進行比較。由於WORLD 無法合成與輸入一樣自然的語音,因此提高音質也很重要。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章