三維音頻中空間方位信息感知編碼關鍵技術研究

項目摘要

基於多音箱回放的3D音頻技術快速發展，MPEG開始制訂3D音頻標準，3D音頻技術已成為新的熱點。相較於傳統環繞聲，3D音頻的關鍵就是其對三維空間方位感的重現，因此空間信息編碼是3D音頻編碼系統的核心。研究顯示人耳對不同方位、頻率的空間信息感知閾值相差可達40倍，因此基於感知的3D音頻空間信息編碼成為3D音頻高性能編碼的關鍵。本項目針對現有多聲道編碼技術缺少對聲音空間信息感知特性的考慮，在追求壓縮率時空間信息感知失真過大的問題，在已有空間聽覺實驗的基礎上，將傳統感知熵理論拓展到空間可感知信息量的計算，建立可感知空間信息度量模型，給出基於感知的空間信息失真測度，完成基於感知的空間信息量化器設計，研究感知失真條件下空間信息比特分配算法，最終構建基於感知的空間信息編碼框架，預期可進一步改善現有3D音頻編碼器主觀性能，研究成果渴望成為相關標準的支撐技術，為解決當前3D音頻編碼的性能瓶頸提供技術支撐。

結題摘要

相比於傳統環繞聲，3D音頻的關鍵就是其對三維空間方位感的重現，因此空間信息編碼是3D音頻編碼系統的核心。研究顯示人耳對不同方位、頻率的空間信息感知閾值相差可達40倍，因此基於感知的3D音頻空間信息編碼成為3D音頻高性能編碼的關鍵。為探索空間方位線索感知特性和機理，本項目設計出全新的高度角聽覺閾值測量系統的實驗裝置，通過大量的聽音實驗，獲得25個 bark 帶、5種高度角的聽覺閾值數據，為三維音頻空間信息壓縮提供基礎數據和核心技術支撐。基於人耳聽音原理，本項目將利用人耳對空間信息解析度有限的特性，將感知解析度引入基於香農資訊理論的感知信息量計算模型，建立了基於雙耳線索和高度角的可感知信息度量模型。基於實驗獲取的數據和感知信息度量模型，本項目在傳統失真測度的基礎上引入人耳對空間方位信息的感知特性，建立新的失真測度。在此基礎上提出全方位空間參數非均勻感知編碼方法，並結合MPEG環繞聲標準實現了基於空間感知的三維音頻編解碼器，還設計了方位和距離參數的量化方法，最終建立三維音頻空間信息編碼框架。與MPEG Surround進行主客觀測試對比，空間參數噪掩比降低了約40%，主觀MUSHRA得分平均提高約4分。本項目設計的編碼框架進一步改善了現有3D音頻編碼器主觀性能，為解決當前3D音頻編碼的性能瓶頸提供技術支撐。此外，項目組針對當前多聲道音頻壓縮編碼技術中並未充分考慮聲源的空間位置對不同聲道間信號相關性的影響，導致目前多聲道分組編碼時，相關性較強信號不能同組處理導致效率低下，非相關信號同組處理又產生混疊的問題，提出了一種低複雜度地對3D音頻信號進行分組的空間聚類方法，解決了傳統“欠分組”和“過分組”引起的效率下降和音質損失問題。與不分組進行的多聲道矩陣編碼相比，相同碼率下SNR平均提高0.8dB。本項目實施過程中，在本領域相關會議和期刊上共發表科研論文17篇，其中在ICASSP、PCM等音頻編碼和聲學研究領域的國際頂級會議發表論文7篇，在SCI檢索的高水平國際期刊上發表論文2篇，在中國通信、通信學報等國內頂級學報和高水平期刊上發表文章10篇。申請人及項目組成員共申請國家發明專利9項，其中授權1項，受理8項。提交國家標準提案4項，其中M3240號提案被AVS工作組採納為AVS面向語音音頻套用的下一代AVS編解碼框架。

三維音頻中空間方位信息感知編碼關鍵技術研究

基本介紹

項目摘要

結題摘要

相關詞條

熱門詞條