各種音頻編碼方式的比對

一. 各種音頻編碼方式的比對

PCM編碼(原始數字音頻信號流)

類型：Audio

制定者：ITU-T

所需頻寬：1411.2 Kbps

特性：音源信息完整，但冗餘度過大

優點：音源信息保存完整,音質好

缺點：信息量大，體積大，冗餘度過大

應用領域：voip

版稅方式：Free

備注：在計算機應用中，能夠達到最高保真水平的就是PCM編碼，被廣泛用於素材保存及音樂欣賞，CD、DVD以及我們常見的WAV文件中均有應用。因此，PCM約定俗成了無損編碼，因爲PCM代表了數字音頻中最佳的保真水準，並不意味着PCM就能夠確保信號絕對保真，PCM也只能做到最大程度的無限接近。要算一個PCM音頻流的碼率是一件很輕鬆的事情，採樣率值×採樣大小值×聲道數bps。一個採樣率爲44.1KHz，採樣大小爲16bit，雙聲道的 PCM編碼的WAV文件，它的數據速率則爲 44.1K×16×2 =1411.2Kbps。我們常見的Audio CD就採用了PCM編碼，一張光盤的容量只能容納72分鐘的音樂信息。

WMA(Windows Media Audio)

類型：Audio

制定者：微軟公司

所需頻寬：320～112kbps（壓縮10～12倍）

特性：當Bitrate小於128K時，WMA幾乎在同級別的所有有損編碼格式中表現

得最出色，但似乎128k是WMA一個檻，當Bitrate再往上提升時，不會有太多的音質改變。

優點：當Bitrate小於128K時，WMA最爲出色且編碼後得到的音頻文件很小。

缺點：當Bitrate大於128K時，WMA音質損失過大。WMA標準不開放，由微軟掌。

握應用領域：voip

版稅方式：按個收取

備注：WMA的全稱是Windows Media Audio，它是微軟公司推出的與MP3格式齊名的一種新的音頻格式。由於WMA在壓縮比和音質方面都超過了MP3，更是遠勝於RA(Real Audio)，即使在較低的採樣頻率下也能產生較好的音質，再加上WMA有微軟的Windows Media Player做其強大的後盾，所以一經推出就贏得一片喝彩。

ADPCM( 自適應差分PCM)

類型：Audio

制定者：ITU-T

所需頻寬：32Kbps

特性：ADPCM(adaptive difference pulse code modulation)綜合了APCM的自

適應特性和DPCM系統的差分特性，是一種性能比較好的波形編碼。

它的核心想法是：

①利用自適應的思想改變量化階的大小，即使用小的量化階(step-size)去編碼

小的差值，使用大的量化階去編碼大的差值；

②使用過去的樣本值估算下一個輸入樣本的預測值，使實際樣本值和預測值之間的差值總是最小。

優點：算法複雜度低，壓縮比小（CD音質>400kbps），編解碼延時最短（相對

其它技術）

缺點：聲音質量一般

應用領域：voip

版稅方式：Free

備注：ADPCM (ADPCM Adaptive Differential Pulse Code Modulation), 是一種針對16bit (或者更高?) 聲音波形數據的一種有損壓縮算法, 它將聲音流中每次採樣的 16bit 數據以 4bit 存儲, 所以壓縮比 1:4而壓縮/解壓縮算法非常的簡單, 所以是一種低空間消耗,高質量聲音獲得的好途徑。

LPC(Linear Predictive Coding，線性預測編碼)

類型：Audio

制定者：

所需頻寬：2Kbps-4.8Kbps

特性：壓縮比大，計算量大，音質不高，廉價

優點：壓縮比大,廉價

缺點：計算量大，語音質量不是很好，自然度較低

應用領域：voip

版稅方式：Free

備注：參數編碼又稱爲聲源編碼，是將信源信號在頻率域或其它正交變換域提

取特徵參數，並將其變換成數字代碼進行傳輸。譯碼爲其反過程，將收到的數字序列經變換恢復特徵參量，再根據特徵參量重建語音信號。具體說，參數編碼是通過對語音信號特徵參數的提取和編碼，力圖使重建語音信號具有儘可能高的準確性，但重建信號的波形同原語音信號的波形可能會有相當大的差別。如：線性預測編碼（LPC）及其它各種改進型都屬於參數編碼。該編碼比特率可壓縮到2Kbit/s- 4.8Kbit/s，甚至更低，但語音質量只能達到中等，特別是自然度較低。

CELP(Code Excited Linear Prediction碼激勵線性預測編碼)

類型：Audio

制定者：歐洲通信標準協會（ETSI）

所需頻寬：4～16Kbps的速率

特性：

改善語音的質量：

①對誤差信號進行感覺加權，利用人類聽覺的掩蔽特性來提高語音的主觀質量；

②用分數延遲改進基音預測，使濁音的表達更爲準確，尤其改善了女性語音的質量；

③使用修正的MSPE準則來尋找“最佳”的延遲，使得基音週期延遲的外形更

LPC(Linear Predictive Coding，線性預測編碼)

類型：Audio

制定者：

所需頻寬：2Kbps-4.8Kbps

特性：壓縮比大，計算量大，音質不高，廉價

優點：壓縮比大,廉價

缺點：計算量大，語音質量不是很好，自然度較低

應用領域：voip

版稅方式：Free

備注：參數編碼又稱爲聲源編碼，是將信源信號在頻率域或其它正交變換域提取特徵參數，並將其變換成數字代碼進行傳輸。譯碼爲其反過程，將收到的數字序列經變換恢復特徵參量，再根據特徵參量重建語音信號。具體說，參數編碼是通過對語音信號特徵參數的提取和編碼，力圖使重建語音信號具有儘可能高的準確性，但重建信號的波形同原語音信號的波形可能會有相當大的差別。如：線性預測編碼（LPC）及其它各種改進型都屬於參數編碼。該編碼比特率可壓縮到2Kbit/s- 4.8Kbit/s，甚至更低，但語音質量只能達到中等，特別是自然度較低。

CELP(Code Excited Linear Prediction碼激勵線性預測編碼)

類型：Audio

制定者：歐洲通信標準協會（ETSI）

所需頻寬：4～16Kbps的速率

特性：

改善語音的質量：

①對誤差信號進行感覺加權，利用人類聽覺的掩蔽特性來提高語音的主觀質量；

②用分數延遲改進基音預測，使濁音的表達更爲準確，尤其改善了女性語音的質量；

③使用修正的MSPE準則來尋找“最佳”的延遲，使得基音週期延遲的外形更爲平滑

④根據長時預測的效率，調整隨機激勵矢量的大小，提高語音的主觀質量；

⑤使用基於信道錯誤率估計的自適應平滑器，在信道誤碼率較高的情況下也能

合成自然度較高的語音。

結論：

① CELP算法在低速率編碼環境下可以得到令人滿意的壓縮效果；

②使用快速算法，可以有效地降低CELP算法的複雜度，使它完全可以實時地實

現；

③CELP可以成功地對各種不同類型的語音信號進行編碼，這種適應性對於真實

環境，尤其是背景噪聲存在時更爲重要。

優點：用很低的帶寬提供了較清晰的語音

缺點：-

應用領域：voip

版稅方式：Free

備注：1999年歐洲通信標準協會（ETSI）推出了基於碼激勵線性預測編碼（CELP）

的第三代移動通信語音編碼標準自適應多速率語音編碼器（AMR），其中最低速率爲4.75kb/s，達到通信質量。

CELP碼激勵線性預測編碼是Code Excited Linear Prediction的縮寫。CEL是近10年來最成功的語音編碼算法。CELP語音編碼算法用線性預測提取聲道參數，用一個包含許多典型的激勵矢量的碼本作爲激勵參數，每次編碼時都在這個碼本中搜索一個最佳的激勵矢量，這個激勵矢量的編碼值就是這個序列的碼本中的序號。CELP已經被許多語音編碼標準所採用，美國聯邦標準FS1016就是採用CELP的編碼方法，主要用於高質量的窄帶語音保密通信。CELP(Code-Excited Linear Prediction) 這是一個簡化的 LPC 算法，以其低比特率著稱(4800-9600Kbps)，具有很清晰的語音品質和很高的背景噪音免疫性。CELP是一種在中低速率上廣泛使用的語音壓縮編碼方案。

MPEG-1 audio layer 1

類型：Audio

制定者：MPEG

所需頻寬：384kbps（壓縮4倍）

特性：編碼簡單，用於數字盒式錄音磁帶，2聲道，VCD中使用的音頻壓縮方案就是MPEG-1Ⅰ。

優點：壓縮方式相對時域壓縮技術而言要複雜得多，同時編碼效率、聲音質量也

大幅提高，編碼延時相應增加。可以達到“完全透明”的聲音質量（EBU

音質標準）

缺點：頻寬要求較高

應用領域：voip

版稅方式：Free

備注：MPEG-1聲音壓縮編碼是國際上第一個高保真聲音數據壓縮的國際標準，

它分爲三個層次：

--層1(Layer 1)：編碼簡單，用於數字盒式錄音磁帶

--層2(Layer 2)：算法複雜度中等，用於數字音頻廣播(DAB)和VCD等

--層3(Layer 3)：編碼複雜，用於互聯網上的高質量聲音的傳輸，如MP3音樂

壓縮10倍

MUSICAM(MPEG-1 audio layer 2,即MP2)

類型：Audio

制定者：MPEG

所需頻寬：256～192kbps（壓縮6～8倍）

特性：算法複雜度中等，用於數字音頻廣播(DAB)和VCD等，2聲道，而MUSICAM由於其適當的複雜程度和優秀的聲音質量，在數字演播室、DAB、DVB等數字節目的製作、交換、存儲、傳送中得到廣泛應用。

優點：壓縮方式相對時域壓縮技術而言要複雜得多，同時編碼效率、聲音質量也大幅提高，編碼延時相應增加。可以達到“完全透明”的聲音質量（EBU音質標準）

缺點：

應用領域：voip

版稅方式：Free

備註：MPEG-2聲音壓縮編碼是國際上第一個高保真聲音數據壓縮的國際標準，

它分爲三個層次：

--層1(Layer 1)：編碼簡單，用於數字盒式錄音磁帶

--層2(Layer 2)：算法複雜度中等，用於數字音頻廣播(DAB)和VCD等

--層3(Layer 3)：編碼複雜，用於互聯網上的高質量聲音的傳輸，如MP3音樂

壓縮10倍

MP3(MPEG-1 audio layer 3)

類型：Audio

制定者：MPEG

所需頻寬：128～112kbps（壓縮10～12倍）

特性：編碼複雜，用於互聯網上的高質量聲音的傳輸，如MP3音樂壓縮10倍，2聲道。MP3是在綜合MUSICAM和ASPEC的優點的基礎上提出的混合壓縮技術，在當時的技術條件下，MP3的複雜度顯得相對較高，編碼不利於實時，但由於MP3在低碼率條件下高水準的聲音質量，使得它成爲軟解壓及網絡廣播的寵兒。

優點：壓縮比高，適合用於互聯網上的傳播

缺點：MP3在128KBitrate及以下時，會出現明顯的高頻丟失

應用領域：voip

版稅方式：Free

備注：MPEG-3聲音壓縮編碼是國際上第一個高保真聲音數據壓縮的國際標準，

它分爲三個層次：

--層1(Layer 1)：編碼簡單，用於數字盒式錄音磁帶

--層2(Layer 2)：算法複雜度中等，用於數字音頻廣播(DAB)和VCD等

--層3(Layer 3)：編碼複雜，用於互聯網上的高質量聲音的傳輸，如MP3音樂

壓縮10倍

MPEG-2 audio layer

類型：Audio

制定者：MPEG

所需頻寬：與MPEG-1層1，層2，層3相同

特性：MPEG-2的聲音壓縮編碼採用與MPEG-1聲音相同的編譯碼器，層1、層2和層3的結構也相同，但它能支持5.1聲道和7.1聲道的環繞立體聲。

優點：支持5.1聲道和7.1聲道的環繞立體聲

缺點：-

應用領域：voip

版稅方式：按個收取

備註：MPEG-2的聲音壓縮編碼採用與MPEG-1聲音相同的編譯碼器，層1、層2 和層3的結構也相同，但它能支持5.1聲道和7.1聲道的環繞立體聲。

AAC(Advanced Audio Coding ，先進音頻編碼)

類型：Audio

制定者：MPEG

所需頻寬：96-128 kbps

特性：AAC可以支持1到48路之間任意數目的音頻聲道組合、包括15路低頻效

果聲道、配音/多語音聲道，以及15路數據。它可同時傳送16套節目，每套節目的音頻及數據結構可任意規定。 AAC主要可能的應用範圍集中在因特網網絡傳播、數字音頻廣播，包括衛星直播和數字AM、以及數字電視及影院系統等方面。AAC使用了一種非常靈活的熵編碼核心去傳輸編碼頻譜數據。具有48個主要音頻通道16 個低頻增強通道，16 個集成數據流, 16 個配音，16 種編排。優點：支持多種音頻聲道組合，提供優質的音質。

缺點：-

應用領域：voip

版稅方式：一次性收費

備注：AAC於1997年形成國際標準ISO 13818-7。先進音頻編碼（Advanced

Audio Coding--AAC）開發成功，成爲繼MPEG-2音頻標準（ISO/IEC13818-3）之後的新一代音頻壓縮標準。在MPEG-2制訂的早期，本來是想將其音頻編碼部分保持與MPEG-1兼容的。但後來爲了適應演播電視的要求而將其定義成爲一個可以獲得更高質量的多聲道音頻標準。理所當

然地，這個標準是不兼容MPEG-1的，因此被稱爲MPEG-2AAC。換句話說，從表面上看，要製作和播放AAC，都需要使用與MP3完全不同的工具。 HR

類型：udio

制定者：飛利浦

所需頻寬：8Kbps

特性：以增加GSM網絡容量爲目的,但是會損害語音質量;由於現在網絡頻率緊缺,

一些大的運營商已經在大城市密集地帶開通此方式以增加容量。

優點：系統容量大

缺點：語音質量差

應用領域：GSM

版稅方式：按個收費

備注：HR半速率,是一種GSM語音編碼方式。

類型：Audio

制定者：飛利浦

所需頻寬：13Kbps

特性：是一般的GSM手機的通信編碼方式,可以獲得達到4.1左右Qos的語音通

信質量(國際電聯規定語音通信質量Qos滿分爲5)

優點：語音質量得到了提高

缺點：系統容量降低

應用領域：GSM

版稅方式：按個收費

備注：FR全速率，是一種GSM語音編碼方式

EFR

類型：Audio

制定者：飛利浦

所需頻寬：13Kbps

特性：用於GSM手機基於全速率13Kbps的語音編碼和發送,可以獲得更好更清晰

的語音質量(接近Qos4.7)需要網絡服務商開通此項網絡功能，手機才能配合實現。

優點：音質好

缺點：需要網絡服務商開通此項網絡功能，且系統容量降低

應用領域：GSM

版稅方式：按個收費

備注：EFR增強型全速率,一種GSM網絡語音的編碼方式。

GSM-AMR(Adaptive Multi-Rate)

類型：Audio

制定者：飛利浦

所需頻寬：8Kbps(4.75 Kbps~12.2 Kbps)

特性：可以對語音進行替換和消音，平滑噪音，支持間斷式傳輸，對語音進行

動態偵查。能在各種網絡條件下提供優質的語音效果。

優點：音質出色。

缺點：-

應用領域：GSM

版稅方式：按個收費

備注：GSM-ASM是一種廣泛使用在GPRS和W-CDMA網絡上的音頻標準。在規範ETSI GSM06.90中對GSM-AMR進行了定義。AMR語音編碼是GSM2+和WCDMA的默認編碼標準，是第三代無線通訊系統的語音編碼標準。GSM-AMR標準基於ACELP（代數激勵線性預測）編碼。它能在廣泛的傳輸條件下提供高品質的語音效果。

EVRC(Enhanced Variable Rate Coder，增強型可變速率編碼器)

類型：Audio

制定者：美國Qualcomm通信公司(即高通)

所需頻寬：8Kbps或13Kbps

特性：支持三種碼率（9.6 Kbps, 4.8 Kbps 和 1.2 Kbps），噪聲抑制，郵件過

濾。能在各種網絡條件下提供優質的語音效果。

優點：音質出色

缺點：-

應用領域：CDMA

版稅方式：按個收費

備注：EVRC編碼廣泛使用於CDMA網絡。EVRC標準遵循規範TIA IS-127的內容。EVRC編碼基於RCELP

（鬆弛碼激勵線性預測）標準。該編碼可以以Rate 1（171bits/packet），Rate1/2

（80bits/packet）或是Rate1/8（16bits/packet）的容量進行操作。在要求下，它也能產生空包（0bits/packet）。

QCELP(QualComm Code Excited Linear Predictive，受激線性預測編碼)

類型：Audio

制定者：美國Qualcomm通信公司(即高通) 所需頻寬：8k的語音編碼算法(可工作於4/4.8/8/9.6Kbps等固定速率上，而且可變速率地工作於800Kbps～9600Kbps之間)

特性：使用適當的門限值來決定所需速率。QCELP是一種8k的語音編碼算法(可

以在8k的速率下提供接近13k的話音壓縮質量)。這是一種可變速率話音編

碼，根據人的說話特性（大家應該能夠體會我們日常的溝通和交流時並不是一直保持某種恆定的方式講話，有間斷、有不同的聲音頻率等都是人的自然表達）而採取的一種優化技術。

優點：話音清晰、背景噪聲小，系統容量大

缺點：不是Free

應用領域：CDMA

版稅方式：每年支付一筆使用權費用

備註：QCELP，即Qualcomm Code Excited Linear Predictive（Qualcomm受激線性預測編碼）。美國Qualcomm通信公司的專利語音編碼算法，是北美第二代數字移動電話（CDMA）的語音編碼標準（IS95）。這種算法不僅可工作於4/4.8/8/9.6kbit／s等固定速率上，而且可變速率地工作於 800bit／s～9600／s

之間。QCELP算法被認爲是到目前爲止效率最高的一種算法，它的主要特點之一，是使用適當的門限值來決定所需速率。門限值隨背景噪聲電平變化而變化，這樣就抑制了背景噪聲，使得即使在喧鬧的環境中，也能得到良好的

話音質量，CDMA8Kbit/s的話音近似GSM 13Mbit/s的話音。CDMA採QCELP

編碼等一系列技術，具有話音清晰、背景噪聲小等優勢，其性能明顯優於其他無線移動通信系統，語音質量可以與有線電話媲美。無線輻射低。

各種音頻編碼方式的比對

關於遊戲付費的一點想法

我通過CKA和CKS啦！

即時通訊開發（逐行、隔行掃描）

網絡遊戲“我遊我秀”跨特性

語音視頻聊天室開發

linux即時通訊開發---s3c6410編解碼測試

音視頻互動平臺--P2P通信技術

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結