定義
聲碼器在傳送端對語音信號進行分析,提取出語音信號的特徵參量加以編碼和加密,以取得和信道的匹配,經信息通道傳遞到接受端,再根據收到的特徵參量恢復原始語音波形。分析可在頻域中進行,對語音信號作頻譜分析,鑑別清濁音,測定濁音基頻,進而選取清-濁判斷、濁音基頻和頻譜包絡作為特徵參量加以傳送。分析也可在時域中進行,利用其周期性提取一些參數進行線性預測,或對語音信號作相關分析。根據工作原理,聲碼器可以分成:通道式聲碼器、共振峰聲碼器、圖案聲碼器、線性預測聲碼器、相關聲碼器、正交函式聲碼器。
它主要用於數字電話通信,特別是保密電話通信。
原理
人講話時,氣流經過喉頭形成聲源信號,然後激勵由口、鼻腔構成的聲道,產生話音信號。聲碼器發信端的分析器首先對話音信號進行分析,提取主要話音參數:①聲源特性,如聲帶“振動-不振動”(濁-清音)、聲帶振動時的基本頻率(基頻□□);②聲道傳輸聲源信號的特性。這些話音參數變化很慢,它們所占的總頻帶比話音本身的頻帶窄得多,因而對這些參數採樣編碼時總數碼率只有幾千甚至幾百比特/秒,只有直接 由話音信號採樣編碼的數碼率的十幾分之一,可以通過一個普通電話信道來傳輸。收信端的合成器利用這些參數來合成話音。
起源
聲碼器最早出現在美國貝爾實驗室。這個實驗室的H.W.達得利在1928年提出合成話音的構想,並於1939年在紐約世界博覽會上首次表演了他取名為聲碼器的話音合成器。此後,話音合成的原理被用來研究壓縮話音頻帶。聲碼器的研究工作不斷取得進展,數碼率已降到2400或1200比特/秒,甚至更低。合成後的話音質量有較大提高。在售價、結構、耗電等諸方面符合商用的聲碼器已經出現。中國於50年代末開始研製聲碼器,並已用於數字通信。
壓縮頻帶 聲碼器能壓縮頻帶的根本依據是話音信 號中存在信息多餘度。話音信號只要保留聲源和聲道的主要參量,就能保證有較高的話音清晰度。
類型 採用頻譜包絡和基頻作為參數的聲碼器稱為信道聲碼器。除信道聲碼器外,還有多種其他類型的聲碼器。它們在合成話音質量、數碼率和複雜程度等方面不大一樣,主要的差別在於話音參數和提取這些參數的方式不同。例如,用共振峰的位置、幅度和寬度表示頻譜包絡的,稱為共振峰聲碼器;利用同態濾波技術,如對話音信號進行積分變換、取對數和反變換以獲得各參數的,稱為同態聲碼器;直接編碼和傳輸話音的基帶(如取200~600赫的頻帶)以表征聲源特性的,稱為聲激勵聲碼器。此外,還有相位聲碼器、線性預測聲碼器(見線性預測編碼)等。
模型
語音模型是聲碼器技術的基礎。在聲碼器所用的模型中,語音被看成是一個快變化的激勵信號送入一個慢變化的聲道濾波器後所得的輸出。激勵信號在清音時為噪聲,在濁音時為具有基音周期的脈衝串。按照這種模型,語音信號可以用兩組參數表示。一組是激勵源的參數,包括清濁音指示、基音頻率和幅度。另一組參數代表聲道濾波器的回響。這些參數,特別是代表聲道濾波器回響的參數所取的不同的具體形式就構成了各種不同的聲碼器。由於聲碼器只傳遞模型參數,完全去除了語音模型所揭示的語音信號中的多餘性,因而可得到巨大的壓縮效果。波形編碼器雖然也可利用語音模型對語音進行壓縮,但不管怎樣它總還需要傳送按語音模型無法預測的那部分信號波形或信號頻譜。這些按模型預測後的誤差信號代表了我們尚未了解的、在模型中尚未得到反映的語音細節。聲碼器捨去了這些細節,給語音信號的自然度帶來較大的損害。
大部分聲碼器都利用了人耳對相位不敏感這一特性,在進行語音分析和合成時只對語音信號的幅度譜有所要求。所以合成語音與原始語音在波形上很難加以比較。由於這一原因,聲碼器的語音質量一般不用信噪比進行度量,而用主觀制定的平均評價分(MOS)度量。現代聲碼器的平均評價分一般在3.0以下。
類型
1939年以後,已經制出的聲碼器主要有:通道聲碼器、共振峰聲碼器、同態聲碼器、線性預測聲碼器和音素聲碼器。
通道聲碼器 在這種聲碼器中,輸入語音信號的幅度譜通過由14~20個帶通濾波器所組成的濾波器組進行分析,濾波器組把頻率範圍分成許多相鄰頻帶或通道,每個濾波器的輸出都是一個包絡緩慢變化的信號,包絡的大小反映了該頻帶內信號的功率。所以各帶通濾波器輸出的包絡總起來就能近似表示語音信號的幅度譜。另一方面基音檢測和清濁音鑑別器提供基音周期和清油音指示。在解碼端,有與編碼端相同的濾波器組。淸濁音指示用於選擇濾波器組的激勵源,濁音時用脈衝串,清音時用噪聲。脈衝串的頻率由基音控制,譜包絡信息則用來控制各濾波器輸出的大小,因而最終能合成與原始譜包絡相近的語音信號。通道聲碼器的語音質量,即使在2.4kbit/s速率下也可以達到相當高的清晰度,且抗背景噪聲的能力強,穩定性好,因而得到了廣泛的套用,對它的興趣多年不衰。
共振峰聲碼器 是通道聲碼器的一種變型,它在編碼的是共振峰頻率和頻寬。根據聽覺試驗的結論,一般只需傳送3~4個共振峰,因此可以達到很低的數據率。當共振峰提取正確時,共振峰聲碼器可以在語音質量上超過通道聲碼器而速率只需後者的一半。只是由於正確跟蹤共振峰頻率在實現時相當困難,阻礙了這種聲碼器的實用,但對它的研究始終不斷。
同態聲碼器 又稱倒譜聲碼器,它傳送的模型參數是語音的倒譜和語音的幅度譜一樣,可以反映聲道的回響,但是在理論上,利用倒譜可以使語音模型中激勵源和聲道回響的參數得到理想的分離,在理論上雖是一種完美的方法,但在實際實現時同態聲碼器需要很大的計算量,數據率在相同的語音質量下高於通道聲碼器,而且抗語音背景噪聲的能力差,所以只獲得有限的套用。
線性預測聲碼器 是套用最多的一種聲碼器。其最主要的特點是利用線性預測對聲道的回響進行建模。聲碼器傳送的參數除激勵參數外,就是線性預測係數。典型的線性預測係數代表了聲道的衝激回響,但是語音質量對這些係數的量化非常敏感,每個參數要求的比特數也較多,所以在實用時往往使用各種等價的但要求量化比特數少且對比特數不敏感的參數,如反射係數和線譜對等。線性預測聲碼器的激勵模型現已得到改進,如採用濁音聲門波激勵模型或多脈衝激勵模型等。在進行這些改進後,線性預測聲碼器的語音質量在聲碼器中居於前列。
音素聲碼器 聲碼器中速率最低的一種,主要由音素識別器與音素綜合器組成。但實際使用的語音單位一般不是音素而是複合音素等較大的語音單位,因為不考慮上下文影響而連線的音素串是不可懂的。這種聲碼器的語音質量基本上已完全失去自然度,聲碼器所需的數據速率則可在200bit/s以下。
在聲碼器歷史上還出現過相關聲碼器、相位聲碼器以及由F.莫策提出的莫策聲碼器等。其中相位聲碼器,雖然在一般文獻上把它歸入聲碼器,實際上屬於子備編碼。它和相關聲碼器都沒有得到實際套用,只有莫策聲碼器獲得一些套用。
特點
聲碼器的明顯優點是數碼率低,因而適合於窄帶、昂貴和劣質信道條件下的數字電話通信,能滿足節約頻帶、節省功率和抗干擾編碼的要求。低數碼率對話音存儲和話音加密處理也都很有利。聲碼器的缺點是音質不如普通數字電話好,而且工作過程較複雜,造價較高。現代聲碼器主要用於軍隊、政府以及那些值得付出代價以換取通信安全(保密)的場合。隨著對人類發聲機構和聽覺機理的深入研究以及計算機技術和大規模積體電路的發展,聲碼器的音質和設備小型化將不斷得到改進,並將在數字通信中得到更廣泛的套用。
聲碼器對話音存儲和話音加密處理很有利、有算法,速度快、質量好且結構簡單、適合於窄帶、昂貴和劣質信道條件下的數字電話通信。但工作過程複雜,價格高,音質有點差。
CDMA系統
在
第三代移動通信系統中,WCDMA使用自適應多速率(AMR)聲碼器來傳送話音,該聲碼器包括8種不同的聲碼器速率。因為WCDMA是針對
GSM系統而設計的,這種聲碼器在傳輸速率的選擇上有所限制,通常AMR語音活動因素大約為0.67,所以AMR聲碼器對CDMA的環境並非完全合適。因此R5要引入新的寬頻多速率(WB-AMR)聲碼器來進一步改善話音質量。
為提高系統的容量,同時又兼顧話音質量,CDMA2000移動通信系統採用3種話音壓縮編碼標準來實現移動終端的話音編解碼處理:EVRC(IS-127)、8K QCELP(IS-96)和13K QCELP(IS-733)。EVRC聲碼器的語音活動因素只有0.4左右,可使話音質量大幅度的提高,基本達到有線電話的水平。Qualcomm碼激勵線性預測(QCELP)話音編解碼器包括8 kbps和13 kbps的標準。QCELP聲碼器採用全雙工工作方式和可變數據壓縮比率以及話音激活檢測技術,在話音間隙期,根據不同的信噪比背景分別選擇1、1/2、1/4或1/8傳輸速率,可以使平均速率比最高速率下降2倍以上。CDMA還使用了確定聲碼器速率的自適應門限,自適應門限根據背景音噪聲電平的變化改變聲碼器的數據速率,這些門限的使用壓制了背景音噪聲,因而在噪聲環境下也能提供清晰的話音。另外,3GPP2已經選用了一種新的聲碼器可變模式的聲碼器。與EVRC比較,這種聲碼器能提供與EVRC相同的或更好的語音質量,同時可使語音容量最多可以增加75%。
語音合成
聲碼器合成模組的開啟狀態也各不相同.語音類為濁音則只合成濁音,語音類為清音則只合成清音,混合音時兩者都合成,靜音時輸出為零.
濁音在時域合成,其過程由下式表示:
運行條件
聲碼器需要兩個聲音信號才可以工作,一個是載波器(carrier),另一個是信號需要兩個Reas的模組發出,當然使用同一個設備也是可以的,但是總之要有兩個信號。
套用與前景
聲碼器的套用,早期主要在軍事通信上,但隨著聲碼器質量的提高和通信業務種類的增加,聲碼器的套用已經擴大。如移動通信、話音存儲轉發系統、分組化話音、自動翻譯電話、可視電話伴音等都是聲碼器即將或已經進入的套用領域。
就聲碼器本身而言,進一步提高語音質量是聲碼器的主要問題。20世紀80年代以來,線性預測聲碼器的語音質量有了很大的提高,但除了線性預測混合編碼器的質量達到電話通信要求外,嚴格意義上的線性預測聲碼器的語音質量仍基本上是合成語音的質量,平均評價分在3.5以下。為了進一步提高質量,語音模型特別是激勵模型的改進以及矢量量化的合理套用,將仍然是主要的途徑。在20世紀末,速率在4.8kbit/s以下的聲碼器的語音質量能達到電話通信的質量要求。