2015年語音識別文獻閱讀報告

2015年語音識別文獻閱讀報告

@sprt

摘要

    本文回顧了語音識別技術從開創至今的發展歷程,總結了2015年國際上在內容語音識別領域所取得的最新成果和麪臨的主要問題,並重點關注了深度學習在自動語音識別領域的應用情況。

DL AND ASR

    深度學習的框架,尤其是人工神經網絡基礎上的深度學習,可以追溯到邦彥福島1980提出一個學習機。1989,Yann LeCun應用標準的反向傳播算法的深度神經網絡。雖然該算法可以被成功地執行,但這是不實際的。深層神經網絡真正的崛起的是由Geoffrey Hinton 2007提出的前置培訓方法。這個方法初始化的每層深度神經網絡使用受限玻爾茲曼機(RBM)。這種方法的功能是類似的k-均值聚類用於訓練高斯混合模型(GMM)[1]。

    運用深度神經網絡語音識別的思想起源於微軟Redmond實驗室的Dong Yu 和 Li Deng。對信號與信息處理的深入學習,爲深層神經網絡的語音識別系統的框架提供了一個詳細的解釋[2]。深層神經網絡的使用和發展之間有着緊密的聯繫。國內一些公司,如科大訊飛等語音技術幾乎在同一時間在中國迅速發展。

    2010 年以前,最先進的語音識別系統通常採用基於HMM的高斯模型混合模型(HMM-GMM模型)技術。這些模型採用的特徵通常是梅爾頻率倒譜系數 (MFCC)。儘管人們開展了許多工作建立模仿人類聽覺過程的特徵,但我們要強調通過引入深度神經網絡 (DNN) 提供習得特徵表示這一重要發展。DNN解決了用高斯混合模型進行數據表示的低效問題,能夠直接取代高斯混合模型。深度學習還能用於爲傳統HMM語音識別系統學習強大的判別性特徵。該混合系統的優勢是,能夠直接使用語音識別研究人員幾十年來研發的各種語音識別技術。相較於早期的一些工作,DNN和HMM相結合大大減少了錯誤。在新系統中,DNN的語音類通常由捆綁HMM狀態表示—這是一種直接繼承了早期語音系統的技術[3]。

最新成果

    語音識別系統主要有四部分組成,預處理系統,特徵提取系統,聲學模型和語言模型。一些文章只用聲學模型和語言模型來定義一個語音識別系統,但我認爲預處理系統和特徵提取的步驟同樣重要。

 

    對語音素材進行預處理是語音識別系統中經常採用的措施,但是大多數情況下人們將其視爲優化實驗結果的輔助措施來採用。近年來,隨着語音識別在高精度(90%以上)識別以及魯棒性上面臨瓶頸,開始有越來越多的人將關注點放在優化預處理方式上面。F Gemmeke等人利用耦合詞典作爲DNN的預處理階段,對5和15 dB的信噪比之間的不同添加餐廳和機場噪聲的語音識別錯誤率僅爲11.9%[4]。

 

    語音識別的特徵提取是通過分析頻域和倒譜域。傳統的方法包括Mel頻率倒譜系數(MFCC)和濾波器組。特徵提取步驟的目的是模仿人的耳朵一樣提取頻率成分。深層神經網絡在特徵提取中起到重要作用。約翰霍普金斯大學語言和語音處理研究中心(CLSP)和芝加哥豐田技術學院(TTIC)應用瓶頸的功能訓練方法提高聲學特徵[5]。Quoc Bao Nguyen等人在DNN基礎上使用混合特徵進行英文語音識別,錯誤率比MFCC基線系統降低了33%[6]。Yongbin You等提出了一種節點剪枝方法重構DNN生成一個新的深層瓶頸特徵類型,經過節點修建之後的拓撲結構減少了冗餘,得到新的DNN派生特徵,其對乾淨語音的最優識別錯誤率爲7.3%,對帶噪語音識別錯誤率爲23.8%[7]。Yanmin Qian等人證明,這種節點重構方法處理的DNN網絡比原有的網絡大小減少了85%,訓練速度提高了4.2倍[8]。Yuan Liu以DNN和DBN作爲GMM-UBM說話人確認系統中的特徵提取器,將DNN或DBN的隱藏層輸出的大量的語音識別數據作爲深層特徵, 實驗結果顯示當採用4個隱層的DBN進行測試時識別錯誤率僅爲9.75%[9]。Ying-Wei Tan等人將DNN和HMM漢語語音識別的節點信息和聲音特徵整合,在中文大詞彙語音識別任務實現CER相對減少22.75%[10]。Lukas Mateju 等人討論了各種語音特徵對捷克語識別的影響,實驗結果顯示FBANK特徵各方面表現均優於MFCC,對Dictate數據集的最小識別錯誤率爲11.52%[11],他們下一步準備研究期望值更高的TRAPs特徵。

 

    深度學習應用於聲學建模也很常見。事實上,語音識別的深層學習應用的一般意義就是它在聲學建模的應用。許多算法都是適用於這方面,包括基本的DNN和更強大的遞歸神經網絡(RNN)。也有一些研究使用卷積神經網絡(CNN)進行語音識別[12]。

    與其它分類器相比,DNNs最主要的優點是其合理使用了語音幀之間的關係。Andrew L. Maas等人提供了一個關於“在語音識別系統中DNN聲學模型設計的哪一方面最重要”的實證調查,討論了DNN分類器的性能對最終的語音識別的詞錯誤率的影響,並用幾個指標來比較不同的DNN從而量化影響性能的因素。實驗中發現,整個網絡的大小是最重要的因素。到了某個點,增加DNN的層數不僅對性能沒有提高,還會降低性能,3個隱層到5個隱層的DNN架構是足夠的[13]。Dong Yu(開創在ASR中使用DL的大牛)用一個單獨的DNN估計較強和較弱的說話人語音每一幀的語素後驗概率,並用一個加權有限狀態的傳感器(WFST)爲基礎的解碼器來估計分析相關的說話人和語音,在不同的信噪比下系統的最佳設置平均詞錯誤率爲18.8%,比現在最先進的IBM系統降低2.8%[14]。

    目前DNN網絡面臨的主要問題,首先,培訓通常需要解決一個高度非線性優化問題,這個過程中會產生許多局部極小。其次,如果訓練時間過長會使結果傾向於過度擬合。Shi-Xiong Zhang等人提出了一種新型的DNN模型,在頂層使用支持向量機(SVM),在幀水平上的訓練中,新模型表現出與攜帶DNN特徵的多類SVM有關;在序列水平的訓練中,新模型表現出與攜帶DNN特徵和HMM狀態轉移特徵的結構性SVM有關,新模型比傳統DNN模型誤差率降低8%以上[15]。Meixu Song等人針對在大數據訓練時容易導致訓練算法收斂到局部最優的問題,提出了一種重採樣技術,在傳統DNN模型上添加這種技術比不添加錯誤率降低了4.9%[16]。

    卷積神經網絡(CNN)是人工神經網絡的一種,它的權值共享網絡結構使之更類似於生物神經網絡,降低了網絡模型的複雜度,減少了權值的數量。在最新的研究中,將CNNs應用到大詞彙量連續語音識別(LCVSR),實驗結果表明CNN比DNN WER降低了1.8%[17]。對於遠距離語音識別,CNN也比DNN更有效。測試結果顯示CNN比傳統DNN的錯誤率降低了6.5% [18]。Jui-Ting Huang等人從魯棒性及遠距離語音識別等方面將DNN與CNN做了對比,實驗結果CNN均優於DNN,對帶噪語音識別錯誤率達到20.1%[19]。但是在Dimitri Palaz等人和William Chan等人進行的帶噪語音識別中,CNN表現並不好[20,21]。

    遞歸神經網絡(RNN)此前在語音識別領域的表現一直令人失望。最新研究深遞歸神經網絡結合了多層次表徵,經證明,這些表徵使RNNs在大範圍靈活使用的深度網絡中非常有效。Ebru Arisoy等人採用雙向遞歸神經網絡,對2007 IBM GALE識別錯誤率僅爲12.6%[22]。RNNs在TIMIT音素識別基準上的測試錯誤率達到17.7,這是該數據庫識別記錄中最好的成績[23]。

 

    語言模型是用來使語言的安排滿足語法規則和發生概率。DNNs在這一領域的應用也很普遍。一組在新加坡國立大學(NUS)的應用和產品網絡語言建模[24]。

熱點解析

    在2014-2015年關於語音識別的文獻中,使用深度學習技術的研究越來越多,在2015年目前查閱到的文獻中佔70%以上,可以看出深度學習已經是目前研究內容語音識別的主流技術,其中DNN及其改進型網絡在其中的作用尤爲明顯。

    另一方面,雖然目前的語音識別系統的精度可以達到90%以上,爲工業用途提供了強有力的支持,然而在某些情況下,訓練數據很小或有很多不可預知的噪聲時,當前識別的精度不能令人滿意。現在對這2個主題的研究非常熱門。針對使用小型語料庫的語音識別任務,美國國家標準與技術研究所(NIST)舉行了名爲開放的關鍵字搜索評價(openkws)比賽,這些年大多數優秀的解決方案是基於DNN。

    語音識別在噪聲環境下的語音識別方面,也被稱爲語音識別的魯棒性,大多數語音研究小組也把它作爲其主要的研究重點[25]。在現實條件下,聲學數據是夾雜着各種噪聲和信道的變化,大多數傳統的ASR系統爲了提高系統的魯棒性,利用一些語音特徵增強機制作爲預處理階段[26]。在最新的研究中,Arun Narayanan等人首先提出了一個監督式的語音分離系統,使用語音分離作爲前端並利用分離得到的結果替代原特徵,通過聯合自適應訓練法將分離系統和聲學建模結合。聲學模型和語音分離模塊分別使用了DNNs,通過引入額外的隱藏層固定權值的和適當的網絡體系結構完成聯合。實驗得到的最低錯誤率爲15.4%,比實驗所用語料庫中次之的結果降低了4.6%[27]。Shi Yin等人開創性的特意的在訓練數據中注入適度的噪聲,實驗證明,噪聲訓練法可以很好地運用於DNN模型,並且在噪聲環境下基於DNN的語音識別中有實質性的提高[28]。

總結

    不難看出,利用深度神經網絡解決魯棒性問題是語音識別領域時下最熱門的話題,至今仍沒有一個穩定、高效、普適的系統可以對帶噪語音的識別率達到90%以上,而在實際應用中的帶噪語音識別率僅爲60%-70%。另外,訓練數據的不平衡是大多數機器學習算法的一個問題。

    而對於未來語音識別的方向,仿腦和類腦計算無疑是最好的發展方向,只有逐步貼近人腦語音識別的特性才能將正確率提高到令人滿意的程度,現有的深度學習技術是遠遠達不到這一點的。

參考文獻

[1]Automatic Speech Recognition (ASR) History,

www.icsi.berkeley.edu/eecs225d/spr95/lecture05.ps.gz

[2] Li Deng, Dong Yu, “Deep Learning forSignal and Information Processing,” Microsoft Research, 2013.

[3] A historical perspective of speechrecognition. 2014

[4] Exemplar-based speech enhancement fordeep neural network based automatic speech recognition 2015

[5] RamanArora and Karen Livescu, “Multi-view learning with supervision for transformedbottleneck features,” in Proc. ICASSP, 2014.

[6] Improving acoustic model for English ASR System using deep neuralnetwork 2015

[7] An investigation on DNN-derived bottleneck features for GMM-HMMbased robust speech recognition 2015.

[8] Automatic model redundancy reductionfor fast back-propagation for deep neural networks in speech recognition 2015.

[9] Yuan Liu ;Tianfan Fu ;Yuchen Fan;Yanmin Qian ;Kai Yu, Speaker verification with deep features[J], 2014.

[10] Integration of articulatory knowledgeand voicing features based on DNN HMM for Mandarin speech recognition 2015.

[11] Investigation into the use of deep neural networks for LVCSR ofCzech 2015.

[12] P.Swietojanski, A. Ghoshal, and S. Renals, “Convolutional Neural Networks forDistant Speech Recognition,” IEEE Signal Processing Letters,21(9):1120-1124, September 2014.

[13] Building DNN Acoustic Models for Large Vocabulary Speech Recognition2015.

[14] Deep Neural Networks forSingle-Channel Multi-Talker Speech Recognition 2015.

[15] Deep neural support vector machinesfor speech recognition 2015.

[16] Improving HMM/DNN in ASR ofunder-resourced languages using probabilistic sampling 2015.

[17].ZHANG Qingqing,LIU Yong,WANGZhichao,PAN Jielin,YAN Yonghong, The Application of Convolutional NeuralNetwork in Speech Recognition[J],2014.

[18].T.Sainath et al,DEEP CONVOLUTIONAL NEURAL NETWORKS FOR LVCSR[J],ICASSP, 2015.

[19] An analysis of convolutional neuralnetworks for speech recognition 2015

[20] Convolutional Neural Networks-basedcontinuous speech recognition using raw speech signal 2015.

[21] Deep convolutional neural networks foracoustic modeling in low resource languages 2015.

[22] Bidirectionalrecurrent neural network language models for automatic speech recognition 2015.

[23] Pawel Swietojanski, Student Member,IEEE, Arnab Ghoshal, Member, IEEE, and Steve Renals, Fellow, IEEE, ConvolutionalNeural Networks for Distant Speech Recognition[J],2014.

[24] Wei-Chen Cheng, Stanley Kok, Hoai Vu Pham,Hai Leong Chieu, and Kian Ming A. Chai, “Language Modeling with Sum-ProductNetworks,” in Proc. INTERSPEECH, 2014.

[25] Yong Xu, Jun Du, Li-Rong Dai, andChin-Hui Lee, “An Experimental Study on Speech Enhancement Based on Deep NeuralNetworks,” IEEE Signal Processing Letters, vol. 21, no. 1, January 2014.

[26] Exemplar-based speech enhancement fordeep neural network based automatic speech recognition 2015.

[27] Improving Robustness of Deep NeuralNetwork Acoustic Models via Speech Separation and Joint Adaptive Training 2015.

[28] Noisy training for deep neuralnetworks in speech recognition 2015.

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章