基本介紹
- 中文名:人聲編碼器
- 外文名:voice encoder
- 別名:語音信號分析合成系統
- 學科:計算機技術
- 套用:合成人類語音
- 實現:硬體或軟體
簡介,理論,類型,
簡介
語音是人類最直接、最高效的信息交流手段。在通信技術的發展過程中,語音通話一直是大多數通信系統的基本功能。信息傳輸的內容開始向多樣化的方向發展,圖像、視頻等非語音信息在通信中占據的比例逐漸增大,但是語音通話以其便宜、便捷等特點仍然是使用最多的通信方式,因此有效地傳遞語音信息仍然是眾多通信系統的必備功能之一。在數字通信系統中,原始語音信號必須經過數位化後才能傳輸,但數位化後的語音信號存在大量冗餘。對語音信號進行編碼能夠有效地去除數字語音信號中的冗餘信息,降低編碼速率,因此語音編碼技術在現代通信系統中有著廣泛地套用。
人聲編碼器或聲碼器,一種語音信號編碼解碼器。利用語音信號模型語音分析合成的系統。傳播時只利用模型參數,編解碼時利用模型參數估計和語音合成技術。其語音模型中,語音被看作為一個快速變化的激勵信號送入一個緩慢變化的聲道濾波器後所得的輸出。激勵信號在清音時為噪聲,濁音時為具有基音周期的脈衝串。語音模型中的語音信號用兩組參數表示。一組為激勵源參數,包括清濁音指示、基音頻率和振幅;另一組為聲道濾波器的回響參數,參數不同,聲碼器類型也不同。傳輸的是去除了語音信號中冗餘度的模型參數。壓縮比大,但也因丟失了語音的某些細節,給語音信號的自然度帶來較大影響。已研究出來的聲碼器有通道聲碼器、共振峰聲碼器、同態聲碼器、線性預測聲碼器和音素聲碼器。聲碼器早期套用于軍事通信,壓縮比雖大,但重建語音質量較差。採用線性預測的聲碼器在語音質量上已可達到電話通信的要求,在移動通信、話音存儲轉發和可視電話等領域具有廣泛的套用前景。
聲碼器的明顯優點是數碼率低,因而適合於窄帶、昂貴和劣質信道條件下的數字電話通信,能滿足節約頻帶、節省功率和抗干擾編碼的要求。低數碼率對話音存儲和話音加密處理也都很有利。聲碼器的缺點是音質不如普通數字電話好,而且工作過程較複雜,造價較高。現代聲碼器主要用於軍隊、政府以及那些值得付出代價以換取通信安全(保密)的場合。隨著對人類發聲機構和聽覺機理的深入研究以及計算機技術和大規模積體電路的發展,聲碼器的音質和設備小型化將不斷得到改進,並將在數字通信中得到更廣泛的套用。
聲碼器對話音存儲和話音加密處理很有利、有算法,速度快、質量好且結構簡單、適合於窄帶、昂貴和劣質信道條件下的數字電話通信。但工作過程複雜,價格高,音質有點差。
理論
人講話時,人聲是由喉頭的聲帶開關聲門所產生,其中包括了許多周期性的波形與許多諧波,這些周期波可視為基本的聲源信號。這些聲源信號接著經由鼻子和喉嚨(可視為複雜的共振系統),藉由改變嘴型來改變此系統,而產生不同的諧波含量,創造了各式各樣的語音;另外濁音與塞音則是氣流經由不同嘴型產生。 聲碼器發信端的分析器對話音信號進行分析,將該信號被分裂成多個頻帶(這個數字越大,會得到更準確的分析)。輸入信號通過一個多頻帶濾波器,並將每個頻帶分別通過一個包絡檢測器,將包絡檢測器得到的控制信號輸出給解碼器。由於控制信號與原來的語音波形相比變化速度緩慢許多,因此聲碼器大幅降低了語音傳輸所需的頻帶。若將控制信號進行加密,則可以保證語音傳輸安全性,以防攔截。比起原始的語音資料,大約可將傳輸資料壓縮到原先的十幾分之一。 語音信號的重建則將步驟反轉;接收端接到每個頻帶的包絡線參數以後,分別得到每個頻帶的包絡線,可視為多個隨時變的濾波器。接著由一個新的“豐富頻率成分”的聲源信號(可視為噪音訊號),通過每個頻帶的濾波器得到每個頻帶的包絡線訊號,最後將這些訊號得加,得到還原語音訊號。 值得注意的是,通過以上的編碼方法,丟棄了許多原本信號的資訊,主要丟棄了信息頻譜的瞬時頻率,也就是頻譜的相位。這樣的資訊流失雖然保留了語音的可辨識度,但相位的遺失意味著音高的遺失,如中文的“平、上、去、入”等五聲的資訊將遺失,而聽起來的聲音會像機器人講話一般,沒有“抑揚頓挫”。這種“機器人式”的特殊音色,在流行音樂和音效娛樂受到歡迎,在電子音樂中廣泛的被套用。
類型
1939年以後,已經制出的聲碼器主要有:通道聲碼器、共振峰聲碼器、同態聲碼器、線性預測聲碼器和音素聲碼器。
通道聲碼器:在這種聲碼器中,輸入語音信號的幅度譜通過由14~20個帶通濾波器所組成的濾波器組進行分析,濾波器組把頻率範圍分成許多相鄰頻帶或通道,每個濾波器的輸出都是一個包絡緩慢變化的信號,包絡的大小反映了該頻帶內信號的功率。所以各帶通濾波器輸出的包絡總起來就能近似表示語音信號的幅度譜。另一方面基音檢測和清濁音鑑別器提供基音周期和清油音指示。在解碼端,有與編碼端相同的濾波器組。淸濁音指示用於選擇濾波器組的激勵源,濁音時用脈衝串,清音時用噪聲。脈衝串的頻率由基音控制,譜包絡信息則用來控制各濾波器輸出的大小,因而最終能合成與原始譜包絡相近的語音信號。通道聲碼器的語音質量,即使在2.4kbit/s速率下也可以達到相當高的清晰度,且抗背景噪聲的能力強,穩定性好,因而得到了廣泛的套用,對它的興趣多年不衰。
共振峰聲碼器:是通道聲碼器的一種變型,它在編碼的是共振峰頻率和頻寬。根據聽覺試驗的結論,一般只需傳送3~4個共振峰,因此可以達到很低的數據率。當共振峰提取正確時,共振峰聲碼器可以在語音質量上超過通道聲碼器而速率只需後者的一半。只是由於正確跟蹤共振峰頻率在實現時相當困難,阻礙了這種聲碼器的實用,但對它的研究始終不斷。
同態聲碼器:又稱倒譜聲碼器,它傳送的模型參數是語音的倒譜和語音的幅度譜一樣,可以反映聲道的回響,但是在理論上,利用倒譜可以使語音模型中激勵源和聲道回響的參數得到理想的分離,在理論上雖是一種方法,但在實際實現時同態聲碼器需要很大的計算量,數據率在相同的語音質量下高於通道聲碼器,而且抗語音背景噪聲的能力差,所以只獲得有限的套用。
線性預測聲碼器:是套用最多的一種聲碼器。其最主要的特點是利用線性預測對聲道的回響進行建模。聲碼器傳送的參數除激勵參數外,就是線性預測係數。典型的線性預測係數代表了聲道的衝激回響,但是語音質量對這些係數的量化非常敏感,每個參數要求的比特數也較多,所以在實用時往往使用各種等價的但要求量化比特數少且對比特數不敏感的參數,如反射係數和線譜對等。線性預測聲碼器的激勵模型現已得到改進,如採用濁音聲門波激勵模型或多脈衝激勵模型等。在進行這些改進後,線性預測聲碼器的語音質量在聲碼器中居於前列。
音素聲碼器:聲碼器中速率最低的一種,主要由音素識別器與音素綜合器組成。但實際使用的語音單位一般不是音素而是複合音素等較大的語音單位,因為不考慮上下文影響而連線的音素串是不可懂的。這種聲碼器的語音質量基本上已完全失去自然度,聲碼器所需的數據速率則可在200bit/s以下。
在聲碼器歷史上還出現過相關聲碼器、相位聲碼器以及由F.莫策提出的莫策聲碼器等。其中相位聲碼器,雖然在一般文獻上把它歸入聲碼器,實際上屬於子備編碼。它和相關聲碼器都沒有得到實際套用,只有莫策聲碼器獲得一些套用。