自從1937年A.H.Reeves提出脈沖編碼調制(PCM)編碼以來,語音編碼技術就開創了語音數字化通信的歷程。近年來,隨著通信技術的發展和人類社會信息化進程的加快,語音編碼技術也正在迅速地發展,各種語音編碼的新技術和新算法更是層出不窮,這里匯集了31種語音壓縮編碼方式(或算法)的中英文對照詳見下表0。因此,對語音編碼算法進行合理地分類,可以讓大家從整體上把握語音編碼技術的各個發展領域。根據對語音信號不同的處理角度,語音編碼可有下述9種不同的分類方法。
表0:語音壓縮編碼方式的中英文對照表(31種)
欲更多了解各類已標準化的語音及音頻編碼技術的性能比較的請進入。
1、按語音信號帶寬分類
按語音信號帶寬分類是根據語音信號本身在頻域內所占的頻譜寬度進行的一種語音編碼分類方法,據此方法可以將語音編碼分為3種:普通話帶語音編碼、寬帶語音編碼和高寬帶語音編碼。
目前應用得最多的是普通話帶語音編碼。標準的話路頻帶(話帶)語音信號是0.3kHz~3.4kHz,再加上少量的保護帶寬,則一般意義上所說的一路標準話路頻帶寬度就為4kHz。由于人類發聲的頻率范圍主要集中在1kHz~3kHz左右,因此這種設定對于傳遞語音的主要信息是可以接受的。根據奈奎斯特準則,帶寬為4kHz的模擬信號變成數字信號時,采樣頻率應為8kHz才能在還原時不會出現頻譜重疊。因此,通常所說的語音編碼一般都指的是這種對話帶范圍內的語音信號經8kHz采樣后的數字語音信號進行的有損壓縮過程。
寬帶語音編碼可以用于電視會議系統等對語音要求較高的應用領域中。寬帶語音信號帶寬在7kHz左右,采樣率一般在20kHz左右。國際電信聯盟(ITU-T)第16工作組于2002年1月公布的自適應多速率寬帶(AMR-WB)語音編碼器的標準為G.722.2協議,其語音信號帶寬為50Hz~7000Hz,采樣率為16kHz,屬于寬帶語音編碼的一種。AMR-WB語音編碼器已被第三代伙伴計劃(3GPP)選定為全球移動通信系統(GSM)和第三代寬帶碼分多址(WCDMA)通信系統的語音編碼器,并應用于因特網協議(IP)電話、第三代移動通信、綜合業務數字網(ISDN)寬帶電話、ISDN可視電話和電視會議等領域。這標志著無線和有線業務第一次采用同樣的語音編碼器。
另外,還有對更高帶寬的語音信號的編碼,這就是高寬帶語音編碼。它不僅僅是對話音信號的處理,而且還將人耳聽力范圍內的音頻信號(帶寬在20kHz左右)進行壓縮,此時的采樣率一般都在50kHz左右。這一研究領域的應用范圍也十分廣泛,比如在電影、高保真音響、電腦音樂及藝術創作等方面的應用。該技術的應用為人類進入多媒體信息社會提供了更為豐富的聲音資源。
欲具體了解各類多媒體信息(音視頻)壓縮編碼技術的請進入。
2、按語音編碼方法分類
語音信號是一種時變的準周期信號,它可以近似地被看做由許多振幅和相位都隨時間變化的正弦波構成的信號,因此可以用語音的抽樣波形來描述語音信號,同時也可以用語音的參數特征來描述語音信號。人們根據描述語音信號的不同方法將語音編碼分為3類:波形編碼、參數編碼和混合編碼。這種按語音編碼方法進行的分類也是最傳統和最常用的一種分類方法,目前被大多數相關學者所采用。其特點介紹詳見下表2。
表2:按語音編碼方法進行分類的各方法特點
常用的波形編碼方式包括脈沖編碼調制(PCM)、自適應增量調制(ADM)、自適應差分脈碼調制(AD-PCM),自適應預測編碼(APC)和自適應變換編碼(ATC)等。共振峰聲碼器和線性預測聲碼器都是典型的參數編碼器。多脈沖激勵線性預測編碼(MPLPC)、規則脈沖激勵線性預測編碼(RPE- LPC)和碼激勵線性預測(CELP)編碼等都屬于混合編碼。
欲詳細了解各類語音編碼方法的技術原理介紹的請進入。
3、按語音編碼處理域分類
語音信號是一種典型的非平穩信號,但由于語音的形成過程是與發音器官的運動密切相關的,這種物理運動比起聲音振動速度來講要緩慢得多,因此語音信號常常可假定為短時平穩信號,即在l0ms~30ms這樣的時間段內,語音信號的某些物理特征參量可近似地看做是不變的。這就決定了語音信號可以進行時域處理。同時語音信號的短時平穩性決定了語音頻譜在l0ms~30ms這樣短的時間段中也是平穩的,因此也可以對語音信號進行頻譜分析,即頻域處理。
人們根據語音信號處理域的不同將語音編碼分為兩類:時域編碼和頻域編碼(變換域編碼)。顧名思義,時域編碼就是對語音信號在時間域內進行相關處理并進行壓縮編碼;頻域編碼就是將語音信號由時間域變換到頻域內進行相關處理并進行壓縮編碼。利用語音信號本身的性質和人類的聽覺特性,可以確定時域編碼和頻域編碼的分類關系,如圖3所示。
圖3:時域編碼和頻域編碼的分類關系圖
4、按語音編碼速率分類
按語音編碼速率分類是根據語音信號進行壓縮編碼后進行傳輸或存儲所需要的數據速率(比特率)進行的一種語音編碼分類方法。據此方法可以大致將語音編碼分為3種:高速率(32Kb/s以上)語音編碼、中速率(4.8Kb/s~32Kb/s)語音編碼和低速率(4.8Kb/s以下)語音編碼,如圖4所示。另外,也有學者按編碼速率將語音編碼分為5種,詳見下表4。表4和圖4的分類方法沒有本質的區別,只是此方法分得更為詳細而已。
圖4:語音編碼速率劃分圖(3種) 表4:語音編碼速率劃分表(5種)
從圖4可以看出,編碼速率分類和編碼方法分類基本上是對應的。波形編碼方法通常稱為高速率編碼,其比特率一般都在32Kb/s以上;參數編碼方法通常稱為低速率編碼,其比特率一般都在4.8Kb/s以下;介于中間的編碼方法屬于中速率語音編碼,也就是混合編碼方法。當然,編碼速率分類和編碼方法分類的對應并不是絕對的,這種對應是一個相對的概念,有時它們相互之間存在著交叉關系。
欲具體了解按語音編碼速率分類的國際標準編碼技術性能的請進入。
欲更多了解幾種低速率語音編碼器的合成語音質量的主觀和客觀評價指標的請進入。
5、按編碼所使用的主要技術的分類
按照編碼所使用的主要技術,可以將語音編碼劃分為線性預測編碼、自適應編碼、矢量編碼和變換域編碼等。其特點詳見下表5。應該指出,廣義來說,子帶編碼等頻域編碼也是一種變換域編碼,但其變換通常并非采用正交變換,因此,一般不把它們歸為變換域編碼。而變換域編碼中的DFT變換編碼也可稱為頻域編碼,但其變換屬于正交變換,故一般仍將其歸為變換域編碼。
表5:按編碼所使用的主要技術進行分類的各方法特點
6、按編碼算法是否依賴于某種模型假定的分類
按照編碼算法是否依賴于某種模型的假定,可以將語音編碼劃分為基于模型的編碼和不基于模型的編碼兩大類。有的文獻資料又稱之為模型編碼和非模型編碼。
不基于模型的編碼或非模型編碼,主要是指波形編碼(包括變換編碼)。這類編碼是以波形逼近為原則,直接對時域波形或在變換域進行編碼。其重建語音的質量好,但是編碼所需速率較高。基于模型的編碼是指那些以某種模型的假定為基礎的編碼。這里的模型假定包括語音產生模型和聽覺模型兩方面。基于語音產生模型的編碼有很多種,通道聲碼器、同態聲碼器、相位聲碼器、共振峰聲碼器、基于全極點聲道模型的線性預測聲碼器(LPC)和許多由LPC改進而得到的混合編碼方法,都是基于模型的編碼。
7、按被編碼信號的屬性的分類
按照被編碼信號的屬性可分為語音編碼和聲頻編碼。所謂聲頻編碼,是指那些非語音的聲音信號的編碼,例如各種樂器發出的音樂聲、鳥叫聲、流水聲等的編碼。聲頻編碼又稱為音頻編碼,是語音編碼的一個重要分支。
8、按編碼速率是否固定的分類
按照編碼速率是否固定,可以將語音編碼分為固定速率語音編碼和變速率語音編碼兩類。在語音編碼過程中,始終保持輸出數據速率固定的稱為定速率語音編碼。PCM、ADPCM、MPELP、CELP等大多數語音編碼都是定速率語音編碼。在語音編碼過程中,根據輸入信號的不同情況而改變輸出數據速率的稱為變速率語音編碼。第三代移動通信中使用的QCELP、EVRC等,就是變速率語音編碼。
9、按編碼出現和應用時間以及技術發展情況的分類
按照編碼出現和應用的時間以及技術發展情況,可以將語音編碼分為經典語音編碼和現代語音編碼兩類。20世紀70年代末以前出現和應用的語音編碼,其技術發展已經相當成熟和完善,例如PCM,稱為經典的語音編碼。20世紀80年代以后出現和應用、目前在技術上仍在繼續發展和完善的語音編碼,例如CELP、QCELP等,稱為現代語音編碼。