術語定義
(英文:formant或resonance peak)
聲學語音學(acoustic linguistics)的術語。是顯示在由聲譜儀(sound spectro-graph)自動畫出的頻譜圖(spectro-gram)上的、被加強的語音頻帶。一切元音都有一個基音,並有至少兩個語音加強頻帶,亦即有兩個共振峰;一般用F1、F2等表示。聲道中的共鳴作用使一個音的加強區有別於另一個音的加強區,因此不同音素的共振峰標度就有所不同。共振峰在頻譜圖上顯示為水平方向的黑帶,而線上性頻譜(spectrum)上則體現為特定頻率的振幅峰。在語圖儀所顯示的共振峰黑帶上,標尺最低的是第一共振峰(F1),順次向上分別為第二(F2)、第三(F3)等共振峰。共振峰黑帶的高低、濃淡和寬窄等參項顯示出音延(duration)、音頻(frequency)和音強(intensity)等因素的變化。而在頻譜儀上,聲波被分解成重複的連續性波形,其中有限數目的分音用不同長度的直線表示,這些直線代表不同頻率的對應振幅,構成了類似光譜的頻譜,稱為“直線頻譜”(line spec-trum)。最強振幅的直線頻譜就是第一共振峰。聲波的連續重複逐漸降低了振幅,使波形不完全一致;其次強振幅即是第二共振峰,其餘依次類推,把各直線頻譜至高點聯結在一起的曲線叫作“包絡線”(envelope)或“共鳴曲線”(resonance curve)或“連續頻譜”(continuous spectrum)。“阻尼”(damping)作用使連續頻譜更能準確地表現任何語音的實際狀況。阻尼程度越大,共鳴曲線的擴展就越大,共振峰的幅差也就越大。
聲音在經過共振腔時,受到腔體的濾波作用,使得
頻域中不同頻率的能量重新分配,一部分因為共振腔的共振作用得到強化,另一部分則受到衰減。由於能量分布不均勻,強的部分猶如山峰一般,故而稱之為共振峰。
在語音聲學中,共振峰決定著元音的
音質,而在計算機音樂中,它們是決定
音色和音質的重要參數。
聲學語音學術語。指從聲帶波到唇邊輻射波的過程中,由於聲腔的不同特性,形成一個共振系統,造成這一群或那一群諧音被強烈傳遞,因而在不同的聲音中所形成的不同的能量集中區,即頻譜圖上顯示的被加強的頻帶(表現為水平方向的黑帶)。它線上狀頻譜上表現為在一定頻率處的一些振幅峰。一個音的加強區有別於另一個音的加強區是由於聲道中不同的共鳴作用。一切元音都有一個基音,並且至少有兩個聲音加強的頻帶,也就是說有兩個共振峰。早期人們認為一個加強區是由於喉部的共鳴,另一個是由於口腔的共鳴。現在儘管共鳴分布於個別聲腔的說法被否定了,但一些語言學家仍然使用“口腔共振峰”和“喉部共振峰”這兩個術語。
產生原理
共振峰的分布位置是建立在聲音產生媒介的共鳴物理結構基礎上的(Resonant Physical Structure)。
無論是人聲還是樂器,它們的聲音特性都源自兩個因素,一個是
發聲系統,如人的
聲帶或樂器的振動
簧片,另一個是共鳴系統。樂器不同的共鳴系統使其在一定
頻域中的分音的
振幅得以突出,這樣,這些區域就產生了這個樂器所特有的共振峰值,這些共振峰值同共鳴體的大小、形狀的材料密切相關。由於一件樂器的結構是穩定的,因此在一件樂器發出的所有
音調中,不論
基頻如何,都會表現出相同的共振峰值,只不過其顯著性有強有弱罷了。這就可以幫助我們解釋為什麼在很多的樂器中,同一樂器所發出的不同音調具有相同的
音質。
在語音聲學中,人聲也同樣受自身生理如鼻孔、咽腔、口腔大小的影響有自身的共振峰區(Formant Regions)。通過利用這些共鳴空間的形狀和大小不同的變化(例如改變咽喉、嘴形),我們就能改變聲音的共振峰。我們之所以能夠區分不同的人聲、元音,主要也是依靠它們的共振峰分布的位置。
存在問題
與基因檢測類似,共振峰估計也是表面上看起來很容易,而實際上又受很多問題困擾。這些問題包括:
(1)虛假峰值。在正常情況下,頻譜包絡中的極大值完全是又共振峰引起的。但線上性預測分析方法出現之前的頻譜包絡估計器中,出現虛假峰值是相當普遍的現象。甚至在採用線性預測方法時,也並非沒有虛假峰值。為了增加靈活性會給預測器增加個額外的極點,有時可利用這些極點代表虛假峰值。
(2)共振峰合併。相鄰共振峰的頻率可能會靠的太近而難以分辨。這時會產生共振峰合併現象,而探討一種理想的能對共振峰合併進行識別的共振峰提取算法存在很多實際困難。
(3)高音調語音。傳統的頻譜包絡估計方法是利用由諧波峰值提供的樣點。高音調語音的諧波間隔比較寬,因而為頻譜包絡估值所提供的樣點比較少,所以譜包絡的估計就不夠精確。即使採用線性預測進行頻譜包絡估計也會出現這個問題。在這樣的語音中,線性預測包絡峰值趨向於離開真實位置,而朝著最接近的諧波峰位移動。
參數解釋
共振峰參數包括共振峰頻率、頻頻寬度和幅值,共振峰信息包含在語音頻譜的包絡中。因此共振峰參數提取的關鍵是估計語音頻譜包絡,並認為譜包絡中的最大值就是共振峰。利用語音頻譜傅立葉變換相應的低頻部分進行逆變換,就可以得到語音頻譜的包絡曲線。依據頻譜包絡線各峰值能量的大小確定出第1~第4共振峰。
計算合成
而在計算機的數字合成環境下,共振峰主要是通過音頻數字來計算的。共振峰區儘管不直接與
基本頻率的音高有關聯,但或多或少有間接的影響。如人聲的發聲,如果
基頻低於共振峰區,在共振峰區以下,人聲的發聲就會很豐富飽滿,假如基頻高於共振峰區,聲音就會變形,使人很難發出正確的元音,因為人的生理條件在發出過高的音時會變形,共振峰也會變化。
共振峰合成是一種特殊的但卻非常重要的合成理論,有時被看作是加法合成技術理論的一種。很多作曲家,如A.Wayne Slawson曾經精確地使用共振峰理論作為一種作曲要素。
當然,還有許多其他實現
音色變化的合成技術,共振峰合成只是適度、精確地達到音色實現效果的其中一種。
信號提取
目前的提取語音共振峰的方法比較多,常用的方法有倒譜法、LPC(線性預測編碼)譜估計法、LPC倒譜法等。
(1)基於線性預測(LPC)的共振峰求取方法。一種有效的頻譜包絡估計方法是從線性預測分析角度推導出聲道濾波器,根據這個聲道濾波器找出共振峰。雖然線性預測法也有一定的缺點,例如其頻率靈敏度與人耳不相匹配,但對於許多套用來說,它仍然是一種行之有效的方法。線性預測共振峰通常有兩種途徑可供選擇:一種途徑是利用一種標準的尋找復根的程式計算預測誤差濾波器的根,稱為求根法;另一種途徑是找出由預測器導出的頻譜包絡中的局部極大值,稱為選峰法。
(2)倒譜法。聲道回響的倒譜衰減很快,在[-25,25]之外的值相當小,因此可以構造一個相應的倒譜濾波器,將聲道的倒譜分離,對分離出來的倒譜做相應的反變換,就可以得到聲道函式的對數譜,對此做進一步處理即可求得所需的各個共振峰。
方法套用
基於線性預測(LPC)的套用技術現狀
肺部氣流衝擊聲帶通過聲道的回響,形成語音。不同的聲道形狀產生不同的聲道回響,導致不同的語音。就聲道的數學模型,主要有兩種觀點:
a.把聲道看作由多個不同截面積的聲管串聯而成,即聲管模型;
b.把聲道看作諧振腔,共振峰就是該腔體的諧振頻率,即共振峰模型。
因人耳聽覺的柯替氏器官就是按頻率感受而排列其位置的,因而,實踐證明共振峰模型方法是非常有效的。共振峰是描述語音信號特徵的重要參數,所以,準確有效的共振峰提取算法對語音信號的分析、台成、編碼有重要意義。線性預測編碼(LPC)是進行語音信號分析、語音信號編碼最有效的技術之一 其重要性在於提供了一組簡潔的語音信號模型參數,比較精確地表征了語音信號的幅度譜,而分析它們所需的計算量相對而言並不大口 語音信號共振峰的LPC分析方法的一個主要特點在於能夠由預測係數構成的多項式中精確地估計共振峰頻率和頻寬。在過去的研究中,已有許多利用LPC分析提取共振峰方法被提出 。
倒譜法的套用技術現狀
倒譜法根據對數功率譜的逆傅立葉變換,能夠分離頻譜包絡和細微結構,很精確地得到基音頻率和共振峰信息,但它的運算量比較大。當採用無噪語音時,用倒譜進行基音提取的效果是很理想的。然而當存在加性噪聲時,在對數功率譜的低電平部分會被噪聲填滿,從而掩蓋了基音諧波的周期性。這意味著倒譜的輸入不再是純淨的周期性成分,而倒譜中的基音峰值將會展寬,並受到噪聲的污染從而使倒譜檢測方法的靈敏度也隨之下降。在基音估計中還可以使用經過中心削波或三電平削波後的自相關方法,這種方法在信噪比低的情況下可以獲得良好的性能。