語音信號處理基礎(二)

語音信號處理基礎(二)

1.2.2 語音編碼

語音編碼的目的

保證在一定語音質量的前提下,儘可能降低編碼比特率,以節省頻率資源。

    語音編碼技術的鼻祖:
    研究開始於1939年軍事保密通信的需要,貝爾電話實驗室的Homer Dudley提出並實現了在低頻帶寬電話電報電纜上傳輸語音信號的通道聲碼器。

    20世紀70年代:國際電聯(ITU-T,原CCITT(國際電話電報諮詢委員會))64kbit/s脈衝編碼調製(PCM)語音編碼算法的G.711建議,它被廣泛應用於數字通信、數字交換機等領域。

    1980年:美國政府公佈了一種2.4kbit/s的線性預測編碼標準算法LPC-10,這使得在普通電話帶寬中傳輸數字電話成爲可能。
    ITU-T也於20世紀80年代初着手研究低於64kbit/s的非PCM編碼算法,1984年通過了32kbit/s ADPCM語音編碼G.721建議,它不僅可以達到與PCM相同的語音質量,而且具有更優良的抗誤碼性能。1988年美國又公佈了一個4.8kbit/s的碼激勵線性預測(CELP)編碼算法。與此同時,歐洲也推出了一個16kbit/s的規則脈衝激勵線性預測(RPE-LPC)編碼算法。

   20世紀90年代:隨着因特網在全球範圍的興起,人們對能在網絡上傳輸語音的VoIP技術興趣大增,由此,IP分組語音通信技術獲得了突破性進展和實際應用。

   20世紀90年代中期到現在,第三代移動通信技術逐漸成熟並走向商用,變速率語音編碼和帶寬語音編碼得到了迅速的發展,不斷有新的國際標準和地區標準公佈。

   語音編碼技術主要有兩個努力的方向:
   
   一個是中低速率的語音編碼的實用化及如何在實用化過程中進一步提高其抗干擾、抗噪聲的能力;
   另一個是如何進一步降低其編碼速率。

1.2.3 語音識別

與機器進行語音交流,讓機器明白你說什麼。而語音識別技術就是讓機器通過識別和理解過程把語音信號轉變爲相應的文本或命令。

根據在不同限制條件下的研究任務,產生了不同的研究研究領域。這些領域包括:

  1. 根據對說話人說話方式的要求,可以分爲

孤立字語音識別系統

連續字語音識別系統

連續語音識別系統

  1. 根據對說話人的依賴程度可以分爲

特定人語音識別系統

非特定人語音識別系統

  1. 根據詞彙量大小,可以分爲

小詞彙量語音識別系統

中等詞彙量語音識別系統

大詞彙量語音識別系統

無限詞彙量語音識別系統

   語音識別發展歷程:

   20世紀50年代:AT&T貝爾實驗室的Audry系統,它是第一個可以識別10個英語數字的語音識別系統。

   1956年:RAC實驗室的Olson等人也獨立地研製出了10個單音節詞的識別系統,系統採用從帶通濾波器組獲得的頻譜參數作爲語音的特徵。

   1959年:Fry和Denes等人採用頻譜分析和模式匹配進行識別決策構建音素識別器來辨別4個元音和9個輔音。MIT林肯實驗室採用聲道的時變估計技術研究10個元音的識別

   20世紀60年代末:重要成果是提出了動態規劃(DP)(是對解最優化問題的一種途徑、一種方法,而不是一種特殊算法。)和線性預測編碼(LPC)分析技術,其中後者較好地解決了語音信號產生模型的問題,對整個語音識別、語音合成、語音分析、語音編碼的研究發展產生了深遠影響。

   20世紀70年代:在理論上,LPC技術得到進一步發展,動態時間規整(DTW)技術基本成熟,特別是提出了矢量量化(VQ)和隱馬爾可夫模型(HMM)理論。在實踐上,首先在孤立詞識別方面,由日本學者Sakoe給出了使用動態規劃方法(DP)進行語音識別的途徑——DP算法。Itakura基於語音編碼中廣泛使用的LPC技術,通過定義基於LPC頻譜參數的合適的距離測度,成功地將其應用到語音識別中。同時,以IBM爲首的一些語音研究單位還着手開展了連續語音識別的研究。

   20世紀70年代末到20世紀80年代初:Linda、Buzo、Gray等人解決了矢量量化碼本生成的方法,並將矢量量化成功地應用到語音編碼中,從此矢量量化技術很快被推廣應用到其他領域。

   20世紀80年代開始:語音識別研究進一步走向深入,就是識別算法從模式匹配技術轉向基於統計模型的技術,更多地追求從整體統計的角度來建立最佳的語音識別系統。HMM技術就是其中的一個典型技術。

   20世紀80年代中期:重新開始的人工神經網絡(ANN)研究,也給語音識別帶來一片新的生機。

   20世紀90年代初期:許多發達國家如美國、日本以及IBM、Apple、AT&T、NTT等著名公司都爲語音識別系統的實用化開發研究投以巨資。

   如今,深度神經網絡(DNN)在語音領域的應用,使得語音識別性能又上了一個新的臺階。

1.3 語音信號處理過程的總體結構

在這裏插入圖片描述

名詞解釋

PCM(脈衝編碼調製)

脈衝編碼調製 (Pulse Code Modulation)是一種對模擬信號數字化的取樣技術,將模擬語音信號變換爲數字信號的編碼方式。利用脈衝序列對連續信號進行抽樣產生的信號稱爲脈衝幅度調製信號。這一過程的實質是把連續信號轉換爲脈衝序列,而每個脈衝的幅度與個抽樣點信號的幅度成正比。

脈衝編碼調製主要經過3個過程:抽樣、量化和編碼。抽樣過程將連續時間模擬信號變爲離散時間、連續幅度的抽樣信號,量化過程將抽樣信號變爲離散時間、離散幅度的數字信號,編碼過程將量化後的信號編碼成爲一個二進制碼組輸出。

LPC(線性預測編碼)

線性預測編碼(LPC)是主要用於音頻信號處理與語音處理中根據線性預測模型的信息用壓縮形式表示數字語音信號譜包絡(spectral envelope)的工具。它是最有效的語音分析技術之一,也是低位速下編碼方法高質量語音最有用的方法之一,它能夠提供非常精確的語音參數預測。

線性預測編碼通過估計共振峯、剔除它們在語音信號中的作用、估計保留的蜂鳴音強度與頻率來分析語音信號。剔除共振峯的過程稱爲逆濾波,經過這個過程剩餘的信號稱爲殘餘信號(residue)。

共振峯的概念在前一節提過

碼激勵線性預測(CELP)編碼算法

它由歐洲通信標準協會(ETSI)制定。 CELP語音編碼算法用線性預測提取聲道參數,用一個包含許多典型的激勵矢量的碼本作爲激勵參數,每次編碼時都在這個碼本中搜索一個最佳的激勵矢量,這個激勵矢量的編碼值就是這個序列的碼本中的序號。

其特點是改善語音的質量:

① 對誤差信號進行感覺加權,利用人類聽覺的掩蔽特性來提高語音的主觀質量;

②用分數延遲(延遲間隔爲採樣間隔的整數倍)改進基音預測,使濁音的表達更爲準確,尤其改善了女性語音的質量;

③ 使用修正的MSPE(純均方誤差)準則來尋找 “最佳”的延遲,使得基音週期延遲的外形更爲平滑;

④根據長時預測的效率,調整隨機激勵矢量的大小,提高語音的主觀質量;

⑤ 使用基於信道錯誤率估計的自適應平滑器,在信道誤碼率較高的情況下也能合成自然度較高的語音。

規則脈衝激勵線性預測(RPE-LPC)編碼算法

規則脈衝是多脈衝的一種,即脈衝間隔固定的多脈衝激勵。對於規則脈衝激勵,算法可以簡化。其結構圖如下:

[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-LqH58doQ-1572442798431)(C:\Users\Administrator\AppData\Roaming\Typora\typora-user-images\image-20191029165019826.png)]

規則脈衝是讓原始語音經短時濾波後的信號r(n)與激勵信號作差,然後對感覺加權後的差值信號求均方誤差最小來確定最佳激勵。
規則脈衝激勵的問題是

A、確定規則脈衝最佳的相位

B、爲每個非零脈衝確定一個幅度。

VOIP技術

基於IP的語音傳輸(Voice over Internet Protocol)是一種語音通話技術

VoIP的基本原理是通過語音的壓縮算法對語音數據編碼進行壓縮處理,然後把這些語音數據按 TCP/IP 標準進行打包,經過 IP 網絡把數據包送至接收地,再把這些語音數據包串起來,經過解壓處理後,恢復成原來的語音信號,從而達到由互聯網傳送語音的目的。

矢量量化(VQ)

將k個樣點構成的有序集(信源矢量集合)映射爲M個恢復失量構成的有限集A(碼書,碼本)中的某個矢量Yi(碼字,碼元)的映射,爲矢量量化,它是對標量量化在K維空間的一個推廣。在傳統的預測和變換編碼中,首先將信號經某種映射變換變成一個數的序列,然後對其一個一個地進行標量量化編碼。而在矢量量化編碼中,則是把輸入數據幾個一組地分成許多組,成組地量化編碼,即將這些數看成一個k維矢量,然後以矢量爲單位逐個矢量進行量化。

隱馬爾可夫模型(HMM)理論

參考文獻

[1]陳彩蓮,於宏毅,羅柏文, 等.一種靈活高效的分數延遲數字濾波器[J].信息工程大學學報,2009,10(4):457-460. DOI:10.3969/j.issn.1671-0673.2009.04.008.

[2]羅麗.計算機語音信號處理與語音識別系統分析[J].數字化用戶,2019,25(14):78.

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章