基本介紹
- 中文名:頭相關傳輸函式
- 外文名:Head Related Transfer Functions
- 縮寫:HRTF
- 別稱:ATF
- 實質:音效定位算法
- 作用:自由場情況聲波從聲源到雙耳傳輸
簡介,HRTF的定義,HRTF的獲取,HRTF的基礎研究工作,
簡介
頭相關傳輸函式(Head—Related Transfer Func.tion,HRTF,也有文獻稱為雙耳傳輸函式)描述了聲波從聲源到雙耳的傳輸過程。它是人的生理結構(如頭、耳廓以及軀幹等)對聲波進行綜合濾波的結果。因為HRTF包含了有關聲源定位的信息,所以它對於雙耳聽覺和心理聲學的研究具有非常重要的意義;在實際套用中,利用耳機或揚聲器重發用HRTF處理過的信號,可以虛擬出各種不同的空間聽覺效果。這已廣泛套用於虛擬聲技術、多媒體與虛擬現實、室內聲學模擬和家用聲重發等領域。正因如此,HRTF成為現今國際上的一個熱門研究課題。它吸引了大量包括聲學、信號處理、生理學以及計算機技術方面的研究工作者從事這方面的研究。以下將評述國際上有關HRTF的研究進展和存在的問題。
然而,現有的許多資料庫在受試者樣本、空間採樣率等方面存在不足;並且,由於HRTF與受試者的生理結構以及尺寸有關,不同民族的生理結構和尺寸有所不同,因而基於西方人樣本的一些統計結果並不一定適合中國人,而國內還沒有開展這方面的研究。
HRTF的定義
聲源發出的聲波經頭部、耳廓、軀幹等散射後到達雙耳,其中的物理過程可視為一個線性時不變(LTI)的聲濾波系統,其特性可由系統的頻域傳輸函式完全描述。HRTF正是這個聲濾波系統的頻域傳輸函式。在自由場的情況下,HRTF定義為
其中,PL,PR分別是簡諧點聲源在傾聽者左、右耳產生的複數聲壓。Po是人頭不存在時,頭中心位置處的複數聲壓。一般情況下HL,HR是聲源的水平方位角θ、仰角Φ、聲源到頭中心的距離r以及聲波的角頻率Ω的函式
(對於遠場,即r>1.2 m的情況,HL,HR基本上與r無關)。另外,由於不同人的頭部、耳廓、軀幹等的尺寸和形狀不同,因而嚴格來說每個人的HRTF是不同的,也就是說HRTF是一個具有個性化特徵的物理量。公式中a表示具有個性化特徵的參量,如頭部的尺寸。
由於HRTF描述了聲波從聲源到雙耳的傳輸過程及其與頭部、耳廓、軀幹等的相互作用,因而它包含了有關聲源定位的大部分信息。其中頭部對聲波的散射作用產生傳統的聲源定位因素,即雙耳時間差(ITD)和雙耳聲級差(ILD),在不同的頻段中兩者的重要性不同。在中、低頻(f<1.6kHz),雙耳時間差ITD是定位的主要因素;在中頻(f在1.5—4.0 kHz),ITD和ILD共同起作用;而在高頻(f>4 kHz),ILD起主要作用。當聲源位於中垂面上,相應的ITD和ILD近似為零,這時傳統的雙耳定位機理解釋不了中垂面的聲源定位。進一步的研究發現,在高頻(f>5 kHz),當耳廓的尺度與波長可比時,它對聲波的散射主要表現為HRTF函式在高頻的前後不對稱和頻譜上的峰谷,這對區分前後鏡像位置的聲源和中垂面的定位有著重要的作用。最近的研究指出,軀幹(特別是肩部,作用範圍是0.8-1.2kHz)的反射聲信息對上、下方向的聲源定位也是重要的,而對水平面內的定位影響較小。也有研究指出,頭髮、衣服等對HRTF也有影響,但這些影響是否能帶來可分辨的主觀聽覺效果還有待探討。
值得指出的是,由於人的外耳由耳廓和耳道構成,而引起聽覺感知的是鼓膜處的聲壓信號,所以最初式(1)中的PL,PR定義為鼓膜處的聲壓。考慮到耳道是一段長約2.5 cm、直徑約8 mm的管,10 kHz以下的聲波在耳道的傳輸可近似為一維聲學傳輸。這種一維傳輸近似開始於耳道入口以外數毫米處。既然耳道的傳輸不會增加有關聲源方位的信息,那么PL,PR可以用耳道任意截面處的聲壓來定義。H.Moller等用外耳的等效電路證明,PL,PR甚至可定義為耳道入口封閉時其上的聲壓。雖然按照不同測量點定義的HRTF有所不同,但是它們是等價的,可以相互轉換。圖1是F.L.Wightman等人對3個不同的真人在鼓膜處測量所得的HRTF振幅譜曲線。從圖可以看出不同人的HRTF的個性化特徵。另外,2.5~3.0 kHz的耳道共振峰也明顯可見。
HRTF在時域的表述稱為頭相關脈衝回響(Head—Impulse Response,HRIR),也稱為雙耳脈衝回響),它與頭相關傳輸函式HL,HR。互為傅立葉變換對:
HRTF的獲取
通過實驗測量獲取HRTF,實驗測量HRTF可對特定的人工頭或真人進行。前者得到的是特定(平均)的聽覺模型情況下的HRTF數據,不能反映HRTF的個性化特徵;後者雖然可以克服這個缺陷,但是真人在測量過程中容易發生輕微的頭部及身體的移動(特別是在測量時間較長的情況下),這將破壞LTI的條件,帶來測量誤差。另外,在測量過程中真人可能會不自覺地產生一些噪聲,也會影響測量結果。測量通常是在消聲室中進行,被測對象位於坐標原點,揚聲器布置在半徑為r的球面上。
為簡單起見,通常取r>1.2 m的遠場,這時HRTF近似與r無關。為了測量不同空間方向的HRTF,需要改變揚聲器與測量對象之間的相對位置,然後進行重複測量。這可通過2種方法進行,或固定被測對象的位置,藉助機械設備改變揚聲器的方位;或固定揚聲器的位置,移動轉椅改變被測對象的方位。當然也有在空間不同方向布置多個相同的揚聲器,每次選用一個揚聲器進行測量。這種方法較為複雜,並且揚聲器對聲波具有反射作用,這會影響測量的準確性。除非不得以,消聲室中應當儘量減少放置物。
隨著計算機套用的發展,目前頭相關傳輸函式的測量過程完全可以採用軟體控制。測量中,揚聲器產生測量信號,而位於雙耳處的傳聲器撿拾雙耳聲壓信號。雖然可直接按式(1)計算頻域的HRTF,但由於需要測量2次聲壓並涉及頻域相除,所以比較繁瑣。目前主要是先測量雙耳脈衝回響HRIR,然後通過傅立葉變換得到HRTF。
理想的測量信號應當具有平直的頻譜特性和低的峰值因子。偽隨機信號與這種理想信號十分接近,所以測量信號多採用偽隨機信號。由於偽隨機信號中的MLS(最大長度序列)信號的自相關函式近似為6函式,所以通過將雙耳聲信號與原始的MLS進行互相關計算即可得到雙耳脈衝回響。當然還需要對揚聲器和傳聲器等的傳輸特性(頻率回響)進行補償,也可能要採用平滑、濾波等方法消除噪聲。也有研究採用Golay信號作為偽隨機測量信號。這種方法的缺點在於需要較長的測量時間。測量時間越長,被測對象發生輕微的移動的可能性越大。
如前所述,測量點可以選在從耳道入口開始到鼓膜間的任意截面處。對於人工頭的情況,這還相對可行。但對於真人,雖然可將探針傳聲器放入耳道內測量,但由於測量位置不容易控制,同時考慮到探針傳聲器的頻響等性能的限制,目前的研究多是採用微縮傳聲器對封閉耳道的HRTF進行測量。封閉耳道法可以避免耳道的個體差異對測量結果的影響;即使對人工頭進行測量,封閉耳道法也可以省去耳道模擬器。
實驗測量獲取HRTF的方法有許多不足。首先它需要消聲室以及測量設備,如果在普通房間進行,房間反射將制約著測量時間;其次,有一些方位的HRTF很難準確測量,特別是仰角小於一50。的方向;最後,如果要得到個性化HRTF,只有進行重複測量,而相應的工作量非常大。
通過計算獲取HRTF從物理角度上講,計算HRTF就是求解頭部、軀幹、耳廓等組成的系統對聲波的散射問題,即在一定的邊界條件下解波動方程。最簡單的HRTF計算方法是將頭簡化為剛性圓球,將雙耳簡化為球面上相對(水平面+90°)的2點,然後用剛性圓球對平面入射波的Raylei散射公式計算。
雖然剛性圓球模型相對簡單,但是由於它沒有考慮頭部的形狀以及耳廓、軀幹的影響,所以只是在盡3.0 kHz的情況下準確。作為改進,有人採用剛性橢球模型,結果較剛性圓球精確。也有研究提出可以將頭視為由4個參數可變的四分之一橢球構成,以便準確地描述人頭的形狀和不對稱性。
為了考慮軀幹的影響,N.A.Gumerov等人提出“雪人模型”,將頭部和軀幹簡化為2個不同半徑的球,然後採用格林函式和多重散射的方法計算HRTF研。這種方法的優點是不僅可以計算軀幹的反射對HRTF的貢獻,還可以推廣到頭附近存在障礙物或剛性反射表面的情況。不足的是“雪人模型”僅是頭部和軀幹的一種粗略的近似;它所用到的數學方法也非常複雜。
由於只有將頭部、軀幹等簡化成規則對稱的幾何形狀時才有可能求出波動方程的解析解。考慮到實際的頭部等並非簡單的規則形狀,需要用計算機數值計算的方法近似求解HRTF。常用的方法包括有限差分法、有限元法(FEM)、邊界元法(BEM)等。有限差分和FEM是將微分方程轉化為區域積分方程,它需要將空間積分區域離散化;而BEM是將微分問題轉化為邊界積分的問題,故只需要將邊界離散化。易見BEM的優點在於方程組的階數低,所需要準備的初始數據少。
HRTF的基礎研究工作
HRTF的在中國的基礎研究工作包括中國人樣本HRTF資料庫的建立和基本特性的研究。
通過對52名受試者(男、女各26名)進行實驗測量,建立了高空間解析度的HRTF資料庫,以及描述受試者頭部、耳廓特徵的17個生理參數的資料庫。在此基礎上,對與聲源定位有關的因素進行了分析;證明了性別對最大雙耳時間差有顯著的影響,因而相關的研究應分別建立適合男性和女性的模型,至少應選擇等量的男、女性受試者的數據進行統計平均,否則就會出現偏差。
進一步地,通過與國外CIPIC HRTF資料庫進行比較,證明了中國人樣本的最大雙耳時間差和主要基於西方人樣本的統計結果存在顯著的差異,因此建立中國人樣本的HRTF資料庫是必要的,而直接引用國外數據進行中國人雙耳聽覺的研究可能會出現偏差。
除此之外,中國方面的相關專家研究了不同衣服對肩部反射以及HRTF的影響,發現耳廓可以消除或減少不同衣服對肩部反射和聲源定位的影響,使得3.0 kHz以下的肩部反射能夠成為一個穩定的聲源定位因素。