數字音頻基礎

轉自:http://blog.csdn.net/xl890727/article/details/7036188

 

1.     音頻技術基礎

聲音的產生是物理現象,人對聲音的感覺是生理、心理活動。一般,人耳對聲音的聽覺特性的要素是:響度、音調、音色。

響度是人耳對聲音強弱的感覺,首先決定於聲音的振幅、其次是頻率。

音調是人耳對聲音高低的感覺,其變化主要取決於聲音頻率的對數值。

音色是人耳對音質差異的感覺。

1)模擬音頻信號

在模擬音頻技術中,通常以磁介質來記錄聲音。例如話筒則是模擬錄音中常用的工具,它把聲波信號轉換爲電信號,隨着聲波信號的變化,話筒內電流的強弱也產生相應的變化。這種變化經過放大處理後傳遞到磁頭,從而產生連續的強度不同的磁場,進而磁化磁帶上的磁性材料。於是聲音就這樣保存在了磁帶上。值得注意的是,模擬音頻的記錄方式是線性的,這條線是由無數個連續變化的磁場狀態組成的。因而我們無法從中找一個代表聲波元素的絕對磁場強度,每個點的磁場強度都不是單獨存在的。因此,存儲介質的磁性變化將會直接影響到模擬音頻的回放質量。

2)數字音頻信號

數字音頻技術,是通過將聲波波形轉換成一連串的二進制的數據來保存聲音的。實現這個步驟主要依靠模/數轉換器(ADC,Analog to Digital Converter),它每隔一個時間間隔不停地間斷性地在模擬音頻的波形上採取一個幅度值,這一過程我們稱之爲採樣。而每個採樣所獲得的數據與該時間點的聲波信號相對應,它稱之爲採樣樣本。將一連串樣本連接起來,就可以描述一段聲波了,而每秒對聲波採樣的次數我們稱之爲採樣頻率,單位是Hz(赫茲)。對於每一個採樣,系統會分配一定的儲存位數(bit數)來表達聲波的振幅狀態,稱之爲採樣精度,這一過程也可稱之爲量化。採樣精度越高,聲音被還原的就越細膩。數字音頻是經過採樣和量化後得到的。時間上的離散叫採樣,幅度上的離散叫量化。隨後按一定的格式將離散的數字信號記錄下來,並在數據的前、後加上同步和糾錯等控制信號,即完成了轉化工作。

一般的,音頻信號的頻率範圍爲20Hz至20KHz之間,而語音信號的範圍爲30Hz至1KHz之間。

2.     音頻數字化

音頻的數字化過程一般分爲取樣、量化、編碼。

取樣

取樣是每隔一段時間讀一次聲音信號的幅度值,即在時間上對模擬信號進行離散。取樣頻率是每秒鐘所抽取聲波幅度值樣本的次數,單位爲KHz,其倒數爲取樣週期。一般地,取樣頻率越高,聲音失真度越小,但數據量也很大。

取樣頻率的高低是根據奈奎斯特抽樣定理和聲音信號本身的最高頻率決定的。比如,音頻信號的頻率範圍爲20Hz至20KHz,所以根據奈奎斯特抽樣定理得知,抽樣頻率應該至少大於40KHz。在AES國際標準中,定義爲48KHz,以此來獲得高音質。當然,對於特殊的音頻,其抽樣頻率有特定的值,如廣播中的抽樣頻率就爲32KHz,因爲廣播的音頻就是15KHz。具體的,大家可以查看AES國際標準。

量化

量化是對模擬音頻信號的幅度進行數字化,它決定了模擬信號數字化以後的動態範圍。由於計算機按字節運算,一般的量化位數爲8位和16位。量化位數越高,信號的動態範圍越大,數字化後的音頻信號就越可能接近原始信號,但所需要的存貯空間也越大。

量化有很多方法,但可歸納爲兩類。一爲線性量化,也就是採用相等的量化間隔來度量採樣得到的幅度。這種方法對於輸入信號不論大小一律採用相同的量化間隔,其優點在於獲得的音頻品質較高,而其缺點在於音頻文件容量較大;另一爲非線性量化,即對輸入的信號採用不同的量化間隔進行量化。對於小信號採用小的量化間隔,對於大信號採用大的量化間隔。非均勻量化量化後文件容量相對較小。

在量化的過程中,必然會產生誤差,稱之爲量化誤差。量化誤差並不全都是噪聲。在大信號當中,量化誤差稱之爲噪聲,但是一般的話其相關性小,在實際處理中往往沒什麼影響。在小信號中,量化誤差稱之爲失真,其相關性較大,不能夠忽略掉。解決方法是施加抖動。

編碼

音頻信號的編碼通常採用脈衝調製編碼,即PCM。

3.     音頻壓縮

音頻壓縮方法可分爲兩類。一爲有損壓縮,一爲無損壓縮。

無損壓縮由霍夫曼編碼、遊程編碼、算術編碼組成。

有損壓縮由波形編碼、參數編碼和混合編碼組成。

4.     音頻格式

WAV文件:Microsoft公司的音頻文件格式,它來源於對聲音模擬波形的採樣。用不同的採樣頻率對聲音的模擬波形進行採樣可以得到一系列離散的採樣點,以不同的量化位數(8位或16位)把這些採樣點的值轉換成二進制數,然後存入磁盤,這就產生了聲音的WAV文件,即波形文件。Microsoft Sound System軟件Sound Finder可以轉換AIF SND和VOD文件到WAV格式。

MIDI文件:Musical Instrument Digital Interface(樂器數字接口)的縮寫。它是由世界上主要電子樂器製造廠商建立起來的一個通信標準,以規定計算機音樂程序電子合成器和其它電子設備之間交換信息與控制信號的方法。MIDI文件中包含音符定時和多達16個通道的樂器定義,每個音符包括鍵通道號持續時間音量和力度等信息。所以MIDI文件記錄的不是樂曲本身,而是一些描述樂曲演奏過程中的指令。

Real Audio,擴展名RA:這種格式真可謂是網絡的靈魂,強大的壓縮量和極小的失真使其在衆多格式中脫穎而出。和MP3相同,它也是爲了解決網絡傳輸帶寬資源而設計的,因此主要目標是壓縮比和容錯性,其次纔是音質。

CD Audio音樂CD,擴展名CDA:唱片採用的格式,又叫“紅皮書”格式,記錄的是波形流,絕對的純正。但缺點是無法編輯,文件長度太大。

MPEG-3,擴展名MP3:現在最流行的聲音文件格式,因其壓縮率大,在網絡可視電話通信方面應用廣泛,但和CD唱片相比,音質不能令人非常滿意。

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章