ITU-T的G.7xx系列建議包括語音(窄帶,300~3400Hz)編碼技術和音頻(寬帶,50Hz~7kHz)編碼技術。這里重點介紹PSTN電話通信中的語音編碼的ITU-T標準。對于語音編碼技術,ITU-T分別研制采用了如下不同的編碼技術。關于下述ITU-T的窄帶語音編碼技術的一些技術性能比較被列于下表0中。
表0:ITU-T所研制使用的窄帶語音技術的性能簡單比較
一、PCM語音編碼技術
脈沖編碼調制(PCM,Pulse Code Modulation)語音編碼技術是ITU-T研究制定的 PSTN電話通信最高通信質量的標準,它就是ITU-T G.711建議。ITU-T在1972年12月發布了G.711的第1個版本,已經過了1976、1980、1984、1988年修訂的第5個版本,即ITU-T G.711(11/1988)《語音頻率的脈沖編碼調制(PCM)》。
欲詳細了解ITU-T G.711建議的高質量64 kb/s的PCM編碼技術的請進入。
二、ADPCM語音編碼技術
ITU-T研究制定的自適應差分脈沖編碼調制(ADPCM,Adaptive Differential Pulse Code Modulation)語音編碼標準有以下幾個:
欲進一步了解ADPCM編碼技術概念的請進入。
1、ITU-T G.721建議的高音質32 kb/s的ADPCM編碼技術
1984年ITU-T公布了G.721建議,這一建議規定了關于高音質32 kb/s ADPCM語音編碼的國際標準,該建議于1986年做了進一步的修改。這種算法的話音質量十分接近G.711 A律或μ律64 kb/s PCM的話音質量,MOS分為4.1,達到了網絡質量等級。經過4次非同步轉接后MOS分仍在3.5分以上。其抗誤碼性能優于PCM,帶內數據傳輸率能達4800 b/s,其音頻帶寬為200~3400 Hz,采樣頻率為8 kHz,每一樣點用4 bit編碼。由于G.721建議的高音質32 kb/s ADPCM主要用來對現有PCM信道擴容,即把2個2048 kb/s 30路PCM基群信號轉換成一個2048 kb/s 60路ADPCM信號,因此ADPCM編碼輸入與譯碼器輸出都采用標準A律或μ律PCM信碼。該建議被后來的G.726所代替。
欲更多了解MOS音質評價法的請進入。
2、ITU-T G.726建議的高音質多速率的ADPCM編碼技術
ITU-T在1984年10月發布了G.726的第1個版本,已經過了1987、1988、1990年修訂的第4個版本,即ITU-T G.726(12/1990)《40、32、24、16kbit/s自適應差分脈沖編碼調制(ADPCM)》。
G.726建議將64kbit/的A律μ律脈碼調制(PCM)通道轉換為40、32、24或16 kbit / s通道。使用ADPCM代碼轉換技術將轉換應用于PCM位流。24和16 kbit/s通道的主要應用是在數字電路倍增設備(DCME)中傳輸聲音的重載通道,40kbit/s通道的主要應用是在DCME中傳輸數據調制解調器信號,特別是對大于4800kbit/s的調制解調器。
3、ITU-T G. 727建議的鑲嵌式ADPCM
本建議書包含每個樣本具有5-,4-,3-和2-位的嵌入式自適應差分脈沖編碼調制(ADPCM)算法的規范(即,以40、32、24和16kbit/s的速率)。描述的特性推薦用于64 kbit/s的轉換,即A律或μ律PCM通道到/從可變速率嵌入式ADPCM通道的轉換。
ITU-T公布了G.721建議的高質量32 kb/s ADPCM之后,在G.723建議中將編碼的速率擴充到40 kb/s和24 kb/s,又在G.726建議中將編碼速率擴充為16 ~40 kb/s的一套完整速率的ADPCM算法。同語音插空技術相結合,采用變速率ADPCM可以使原有PCM信道擴容到8~10倍,這稱為數字話路倍增設備(DCME)。這種設備適用于點到點之間的固定線路擴容,例如衛星或海纜的DCME系統。但隨著社會對通信需求量的不斷提高,僅兩點之間通信效率提高還不夠,需要整個網的通信效率都能提高,辦法之一是采用語音裝包傳輸系統,它不僅具有DCME系統的擴容能力,并且適合交換,便于成網。
語音包交換關鍵問題之一是線路擁塞及對擁塞的處理。在一段短時間內到達包交換機的語音包數量太多,包交換機來不及處理產生擁塞,一般有兩種解決辦法。一種解決辦法是丟棄一些過量的語音包,當丟包量比較大時,語聲質量受到嚴重的損害。另一種辦法是不丟棄整個語音包,而只丟棄包中不重要的比特,仍將重要比特或稱核心比特傳送到譯碼器,以此緩解擁塞問題。當然,這也會使語音質量下降,但比起整段語音被丟棄總要好。采用這種方法時要求語音編譯碼算法具有如下的特性:它可以允許傳輸網絡自主地丟棄一些比特,而譯碼器仍能根據剩下的比特恢復語音信號。鑲嵌式語音編碼就具有這種特性。AT&T以及NTT等公司分別研究了包交換用鑲嵌式語音編碼,都主張采用鑲嵌式ADPCM。在經過細致的研究工作之后,ITU-T于1990年12月通過了40~16kb/s鑲嵌式ADPCM標準G.727。
G.727鑲嵌式ADPCM編碼器與G.721的編碼器基本相同,只是在反饋支路上,逆量化器比之前多了一個反饋比特屏蔽單元。G. 727譯碼器同G. 721譯碼器差別稍大一些。除了上面提到的反饋比特屏蔽單元之外,還多了一條前饋支路,用來產生實際輸出的重建語音信號。G.727建議也包括40、32、24、16 kb/s四個速率,其采樣頻率為8kHz。對于32 kb/s和24kb/s,G.727 ADPCM比G.726 ADPCM的MOS分僅下降0.03分。
三、LD-CELP語音編碼技術
1992年9月ITU-T G.728建議規定采用低延時碼激勵線性預測(LD-CELP,low-delay code excited linear prediction)編碼作為16 kb/s語音編碼標準化方案,2012年6月又對其進行了修訂,即ITU-T G.728(06/2012)《使用低延遲碼激勵線性預測16 kbit/s語音編碼》。
16 kb/s低延時線性預測編碼(LD-CELP)之前的各種線性預測編碼方案,都是利用前向自適應預測器去除語音信號的冗余度,需要有足夠的編碼延時和存儲空間,典型的編碼延時為40~60 ms之間。LD-CELP聲碼器使用后向自適應預測器對短時譜包絡和增益進行預測,其算法延時為0.625ms,一路編碼延時小于 2 ms。合成語音質量良好,MOS分可達4.17分。
四、CS-ACELP語音編碼技術
1996年3月ITU-T G. 729建議規定8 kb/s共扼結構代數碼激勵線性預測(CS-ACELP,conjugate-structure algebraic-code-excited linear prediction)。CS-ACELP編碼作為8 kb/s語音編碼標準化方案,2007年和2012年又經過了兩次修訂,即ITU-T G. 729(06/2012)《使用共軛結構代數碼激勵線性預測(CS-ACELP)在8 kbit / s的語音編碼》。
CS-ACELP編碼其合成語音質量較好,其編碼時延為25 ms,復雜度較低,可在現有DSP上實現。共扼結構代數碼激勵線性預測(CS-ACELP)的編碼方案是由共扼結構碼激勵線性預測(CS-CELP)和代數碼激勵線性預測(ACELP)的思想整合而來的。“共扼”(conjugate structure,CS)的含義是指編碼器對增益的矢量量化過程中采用了共扼結構;而所謂“代數”(algelraic,A)碼書是指其固定碼書采用了代數結構,它的特點是碼書矢量為40維,其中只有4個非零脈沖,其幅度為+1或-1,位置在限定的范圍內。這種碼書的優點是無需任何存儲空間,只要譯碼端獲得非零脈沖的幅度和位置信息,即可得到響應的輸出矢量。
欲更多了解激勵線性預測編碼概念的請進入。
欲更多了解語音編碼知識的請進入。:關于國際上窄帶語音編碼的標準;關于常用語音編碼及特性;關于音頻信號的特性