Voice Conversion 項目筆記(含從VCC 2016匿名比賽深挖的各前沿方法性能對比)

voice conversion 基本架構:
voice conversion 任務主要由兩個步驟構成,特徵提取與特徵參數轉換,對於這兩個步驟,都有相應的常用的技術,這兩個步驟中常用的技術各種排列組合,就產生了衆多VC系統,以下做小彙總。

STEP1:Feature extraction     STEP2:Feature conversion
Feature Extraction toolkits description  
LSF(Line Spectral Frequency) STRAIGHT STRAIGHT is an MATLAB Lib design for VC. GMM/JDGMM
MGC(mel-generalized coeffi-
cient )
STRAIGHT DNN
LF0(log f0) AHOCODER Ahocoder parameterizes speech waveforms into three different streams RNN(BLSTM)
MCP(mel-spectgram) AHOCODER seq2seq/(with Attention)
MVF(maximum voiced frequency) AHOCODER GRU
  DBN   VQ
  Mixture of Factor Analyzer    
parameter generation algorithm with global variance HTS HMM-based Speech Synthesis System  
其中,LF0爲語音基頻log變換,爲主要的語音轉換參數,是表徵不同人,不同性別的最重要參數之一。
其他參數爲語音的高階分量,控制合成語音的細節。

衡量標準:
常用的兩種:基於主觀評分的MOS和基於Mel譜失真的MCD
MOS(Mean Opinion Score) 主觀評分 分值1-5 由受試者主觀打分 一般有GMM方法的MOS分作爲beseline,對於不同的測試可以考慮把GMM的分數對齊從而在不同的MOS測試中統一基準

打分基準:
4-5分 優秀(excelent) 很好,聽的清楚,延遲很小,交流流暢
3-4分 良好(good) 稍差,聽的清楚,延遲小,交流欠缺順暢,有點雜音
2-3分 一般(fair) 還可以,聽不太清,有一定延遲,可以交流
1-2分 差(poor) 勉強,聽不太清,延遲較大,交流重複多次1分以下 很差(bad) 極差,聽不懂,延遲大,交流不通暢

MCD(Mel-cepstral distortion)[dB] 越低越好
例:
seq2seq with LSTM:

Variational Auto-encoder:

Deep sequence-to-sequence Attention Model :

VCC2016:
各組綜合分數對比:

各組方案對比(紅圈爲MOS>2.5 similarity>60%的方案,紫色橫線表示不會公開方法的組別)

其中G,L,O 組
很多都採用了STRAIGHT工具包進行MGC特徵的提取
轉換方法上,常採用GMM或者LSTM方法
開源的組轉換結果樣例:
效果較好的:

略遜的:


各組的報告,包括使用的參數,工具包,及其方法:

各組來源:


現在可用的轉換方法:
用不同的神經網絡對不同參數進行轉換
用AHOcoder進行特徵提取:
LF0:LSTM
MVF:DNN
MCP:GRU
轉換結果樣例:(基於VCC2016 數據)

基於LSF LF0 UV的方法:


轉換結果樣例:
還在下載

基於GMM的轉換:
利用SPTK提取MCEP參數,對MCEP參數用24階GMM進行轉換:
轉換結果樣例:

各機構的Demo:
Voice Conversion 方法,鏈接如下:

TTS方法,鏈接如下:


建議:
在VCC2016比賽中,效果較好的組在語音特徵提取的環節都採用了STRAIGHT工具包,應對此進行進一步的探索
未開源及展示論文的方案可能由於經過cherry-picked的調參,復現可能有一定困難
開源的方案主要是都以LSTM作爲主要模型,用於轉換LF0,MCEP等特徵
現有的轉換方法中,以基於GMM的MCEP特徵轉換作爲基準,利用LSTM轉換LF0的這種方法性能較好,其MOS評分應在2-3分左右,普分辨率較低
可以用STRAIGHT替換AHOcoder進行特徵提取,並使用LSTM進行LF0和MCEP的轉換(嘗試研究G組的方案)。

參考論文及其性能展示:

常用傳統轉換技術對比(不包括各類神經網絡方法):


 
IEEE(只看了一下,包括其中G組的方案):
Voice conversion using deep neural networks with speaker-independent pre-training
Dictionary update for NMF-based voice conversion using an encoder-decoder network
 
Text-independent voice conversion using deep neural network based phonetic level features
 
F0 transformation techniques for statistical voice conversion with direct waveform modification with spectral differential
 
Enhancing a glossectomy patient's speech via GMM-based voice conversion
 
Deep neural network based voice conversion with a large synthesized parallel corpus


SEQ2SEQ類:
Voice Conversion Using Sequence-to-Sequence Learning of Context Posterior Probabilities


 
 
 
Voice Conversion from Unaligned Corpora using Variational Autoencoding Wasserstein Generative Adversarial Networks


 
VAE:
Voice Conversion from Non-parallel Corpora Using Variational Auto-encoder



 
 DNN:

 
 
 

 
 

 
 

 




 
4 Proposed Framework: Deep sequence-to-sequence Attention Model 


 

 

 

尋找對應組:

I組:NII National Institute of Informatics:
NON-PARALLEL VOICE CONVERSION USING I-VECTOR PLDA: TOWARDS UNIFYING SPEAKER VERIFICATION AND TRANSFORMATION




L組:西北工業大學,謝磊:
An Automatic Voice Conversion Evaluation Strategy Based on Perceptual Background Noise Distortion and Speaker Similarity




J組:NU-NAIST:
F0 transformation techniques for statistical voice conversion with direct waveform modification with spectral differential

C組:UTSC-NELLSILP:(jun du)

未知:University College London voice conversion challenge:

Hulk組【G組】:Phone-aware LSTM-RNN for voice conversion

B組:Zhizheng WU:
CSTR The Centre for Speech Technology Research, The University of Edinburgh, UK

F組:HCCL-CUHK Human-Computer Communications Laboratory
The Chinese University of Hong Kong, Hong Kong
日本人的復現:

【一個用DNN的組(O(也有可能是C))】VoiceKontrol Center for Spoken Language Understanding (CSLU), Oregon Health & Science University, Portland, OR, USA
S.H. Mohammadi, A. Kain, Semi-supervised Training of a Voice Conversion Mapping Function using Joint-Autoencoder, Interspeech (To Appear), 2015.
S.H. Mohammadi, A. Kain, Voice Conversion Using Deep Neural Networks With Speaker-Independent Pre-Training, 2014 IEEE Spoken Language Technology Workshop (SLT), 2014.
復現:



還沒找到的:
1.
CASIA-NLPR-Taogroup National Laboratory of Pattern Recognition, Institute of Automation, Chinese Academy of Sciences, Beijing, China

2.
Team Initiator Tsinghua University, Beijing, China

3.
AST Academia Sinica, Taipei, Taiwan

github:
RNN:

LSTM:(還不錯)(F組)

Pitchlinear conversion:
相位加速:

DNN+mfcc(C/O組)

STRAIGHT,F0,GMM

GMM

VAE:


5月18日更新:
LyreBird的在ICLR 2017上的論文:
SAMPLERNN: AN UNCONDITIONAL END-TO-END
NEURAL AUDIO GENERATION MODEL




法語語音轉換公司CandyVoice:

基於發聲系統建模的發聲系統建模器festvox:flite

Flite
1.先用相同性別/年齡段的TTS進行發音
2.基於CUTE技術進行波形擬合和編輯——跟adobe VOCO師出同源
這就是VOCO,都是Zeyu Jin的東西
發佈了51 篇原創文章 · 獲贊 65 · 訪問量 12萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章