国产不卡在线观看视频_日本高清久久_天天操天天干天天摸_一区二区三区视频在线

歡迎來到通信人在線![用戶登錄] [免費注冊]

語音可壓縮編碼的原因及極限速率

瀏覽:8436  來源:通信人在線  日期:2020-03-02

一、語音可壓縮編碼的原因

語音信號可以進(jìn)行壓縮編碼的基本依據(jù)包括兩個方面的原因:一方面是語音信號本身存在很大的冗余度,這是語音可壓縮編碼的外因;另一方面是由于人耳的聽覺感知機理,這是語音可壓縮編碼的內(nèi)因。

1、外因:語音信號本身存在很大的冗余度

根據(jù)統(tǒng)計分析,語音信號中存在著多種冗余度,可以分別從時域和頻域來進(jìn)行描述。

1)語音信號存在時域冗余度

語音信號時域冗余度主要表現(xiàn)在:幅度非均勻分布、語音信號樣本間的相關(guān)性很強、濁音語音段具有準(zhǔn)周期性和存在靜止系數(shù)(語音間隙)等5個方面。這5個方面的具體釋義匯總于下表1-1中。

1-1:語音信號時域冗余度表現(xiàn)的5個方面

2)語音信號存在頻域冗余度

1)非均勻的長時功率譜密度。在相當(dāng)長的時間段內(nèi)進(jìn)行統(tǒng)計平均,可得到長時功率譜密度,它呈現(xiàn)出強烈的非平坦性。這種非平坦性表現(xiàn)為功率譜的低頻能量較高、高頻能量較低,這恰好對應(yīng)于時域上相鄰樣本間的相關(guān)性。這就意味著沒有充分利用給定的語音頻段,或者說存在著固定的冗余度。

2)語音特有的短時功率譜密度。語音信號的短時功率譜在某些頻率上出現(xiàn)峰值,在另一些頻率上出現(xiàn)谷值。而這些峰值頻率,也就是能量較大的頻率,通常稱為共振峰(Formant)頻率。此頻率不止一個,最主要的是前3個,由它們決定了不同的語音特征。另外,整個短時譜也是隨著頻率增加而遞減。更重要的是,整個功率譜的細(xì)節(jié)以基音頻率為基礎(chǔ),形成了高次諧波結(jié)構(gòu)。

2、內(nèi)因:人耳的聽覺感知機理

語音信號可以進(jìn)行壓縮編碼的第二個依據(jù)是利用人類聽覺的某些特點,即人耳的聽覺感知機理。人的聽覺生理和心理特性對于語音感知的影響主要表現(xiàn)在以下3個方面。

1)人類聽覺系統(tǒng)(HAS)具有掩蔽效應(yīng)(ME)HAS特性曲線隨不同聲音壓、不同頻率聲音的影響而變化形成了所謂的掩蔽曲線(掩蔽閾),它大致表現(xiàn)為聲級越高的一個單音對其周圍頻率聲音的掩蔽作用越強。通俗地講,掩蔽曲線反映了人耳的掩蔽效應(yīng),即一個強音能抑制一個同時存在的弱音而導(dǎo)致人耳聽不到或不敏感這個弱音。對人耳聽不到或極不敏感的聲音分量可以看做是冗余。語音壓縮編碼本質(zhì)上就是設(shè)法去掉這些冗余度,從而達(dá)到壓縮比特率的目的。

2)人耳對不同頻段聲音的敏感程度不同。由于濁音的周期和共振峰主要集中在低頻段,因此人耳對低頻端比較敏感,而對高頻端不太敏感,即較強的低頻音能妨礙同時存在的高頻音。

3)人耳對語音信號的相位變化不敏感。人耳能做短時的頻率分析,對語音信號的周期性很敏感,但對語音信號的相位感知卻很遲鈍。因此人耳聽不到或感知很不靈敏的聲音相位分量可以被當(dāng)作冗余信號。

二、語音編碼的極限速率

由于語音信號本身存在很大的冗余度和人耳的聽覺感知機理,全語音進(jìn)行壓縮編碼成為了可能,即只對語音信號主觀上非常重要的屬性進(jìn)行編碼,并把它們進(jìn)行存儲或者進(jìn)行傳輸。這樣,即使在低比特率的情況下也能保持合成語音的高質(zhì)量。

那么,究竟把比特率降低到何種地步而又不會使合成語音發(fā)生明顯的失真(不自然)呢?也就是說,語音信號壓縮編碼的潛力究竟有多大,其極限速率為多少?

在回答這個問題之前,首先來簡單了解一下音素的概念。音素是人類發(fā)音的最基本單位,它跟聲音的聯(lián)系最直接,屬于聽覺符號。比如說,英語f1mns5個字母都含有一個共同的音素[e]。又比如說,漢語‘爸’、‘媽’和‘他’這3個漢字都含有一個共同的音素[a]

下面我們就分別從語音和語言的角度來分析語音編碼的極限速率。

從語音的角度來看,語音中最基本的單位是音素,世界上語音的音素一般約為128~256個,如果按通常的說話速度,每秒平均發(fā)出10個音素。則根據(jù)信息論的觀點,此時的信息率為

V = log225610 = 80 (b/s)

從語言的角度來看,把發(fā)音看成是以語音的速率來發(fā)報文。對英語來講,每一個字母用7b編碼,每分鐘發(fā)125個英語單字可以認(rèn)為達(dá)到了通信語音速率。如果每個單字平均由7個字母組成,則此時的信息率為

V = 7×7×(125/60)≈100 (b/s)

因此,一般可以認(rèn)為語音編碼的極限速率為80b/s~100b/s。當(dāng)然,這時只能傳送句子的內(nèi)容,至于講話者的音質(zhì)、音調(diào)等重要信息已全部丟失。但是,從標(biāo)準(zhǔn)的語音編碼速率(64Kb/s)到語音編碼的極限速率(80b/s~100b/s)之間存在著很大的跨距(約640倍),這對于理論研究和實踐制作有著很大的吸引力。

欲進(jìn)一步了解語音編碼知識的請進(jìn)入語音編碼分類ITU-T語音編碼標(biāo)準(zhǔn)介紹語音信號的特征

附錄
聯(lián)合國兒童基金會助學(xué)
© 2004-2025 通信人在線 版權(quán)所有 備案號:粵ICP備06113876號 網(wǎng)站技術(shù):做網(wǎng)站