三維聲場中聲源水平定位線索感知特性測量與分析

項目摘要

3D影視的興起使三維音視頻技術成為信息與通信行業的技術前沿和研究熱點。三維音頻系統聲道數多、數據量大。通過簡化系統和壓縮數據來降低三維音頻系統的聲道數和數據量，是三維音頻系統亟待解決的重要問題。雙耳線索是三維聲場中人耳對聲源水平方位定位的重要依據，但是人耳對不同方位聲源的雙耳線索的感知敏感度具有較大的差異性。本項目針對雙耳線索的感知敏感度特性，在水平面多個方位測量雙耳線索的感知閾值；通過數學插值建立基於空間分布和頻率特性的雙耳線索感知閾值曲面，將傳統的雙耳線索感知閾值研究由定性描述拓展到定量分析；將該曲面模型套用於水平多聲道信號的高效編碼，提出基於感知閾值的多聲道信號空間參數感知無失真量化方法。在傳統單聲道編碼碼率條件下，增加8kbps空間參數信息可獲得優質的立體聲重建信號。與現有參數立體聲編碼器相比，重建音質提升10個MUSHRA得分。研究成果對於三維音頻信號的高效表達具有指導意義。

結題摘要

雙耳線索是人耳對三維聲場中水平聲源進行定位的重要依據，已被套用於立體聲和多聲道環繞聲編碼中，以傳統單聲道編碼碼率加上空間參數邊信息，即可獲得良好的立體聲/環繞聲音質。人耳對雙耳線索的感知敏感度是人類聽覺系統的重要特性之一，對於提升編碼效率和編碼音質具有重要意義。但是，針對雙耳線索感知特性的研究存在測量數據零散、分析不全面的問題，導致空間參數冗餘難以去除，降低空間音頻編碼效率和質量。針對上述問題，本項目開展雙耳線索臨界可感知閾值的測量、分析及套用研究。首先，針對雙耳強度差線索ILD和雙耳時間差線索ITD的主要作用頻率範圍，分別在20-15500Hz和20-1720Hz範圍內，在7種參考方位值下，完成了上述兩種雙耳線索的臨界可感知差異JND的測量，首次建立了全頻帶、全方位的雙耳線索感知閾值資料庫。其次，利用數學插值擬合的方法處理所測得的JND數據，獲得JND數據的光滑曲面，分析雙耳線索值本身以及信號頻率對JND的影響。實驗結果揭示了雙耳線索JND隨聲源頻率和方位變化的基本規律。最後，項目組開展了雙耳線索感知特性在立體聲編碼中的套用研究。提出了基於感知和分布特性的ILD參數量化算法，通過捨棄感知不重要的頻帶的空間參數，達到降低碼率的目的。與3GPP Eaac+中的參數立體聲算法相比，可在保持音質相當的前提下，使得空間參數碼率下降約15%。針對AVS-P10頻域參數立體聲算法在低頻段採用強度立體聲而導致聲像不穩的問題，提出在全頻帶進行下混和提取空間參數的立體聲編碼架構，並提出基於頻帶劃分的多量化表算法，以適應不同頻帶空間參數的變化規律，將立體聲編碼主觀質量提升2.67個MUSHRA分值，同時將編碼算法複雜度降低約40%。在成果的套用方面，將改進的AVS-P10立體聲算法套用於音頻流媒體點播系統；並且與芬蘭合作方共同設計了新型養老信息系統中的音頻套用方案。在《聲學學報》、《中國通信》等重要學術期刊上發表論文8篇，其中SCI檢索2篇，EI檢索1篇。聯合培養博士生1名，培養碩士生7名。

三維聲場中聲源水平定位線索感知特性測量與分析

基本介紹

項目摘要

結題摘要

熱門詞條