基於張量分析的空間音頻信號壓縮與重建技術研究

項目摘要

空間音頻信號壓縮與重建是未來臨場感通信、互動娛樂、三維音視頻等多媒體套用領域的重要研究方向，其往往受到聲道、對象、時間、頻率等多種因素的共同影響，大規模和高維度的空間音頻數據對壓縮和重建技術提出了挑戰，而張量分析在處理多因素信號問題上具有天然的優勢，能夠充分挖掘空間音頻的稀疏和低秩特點。本研究將致力於多聲道和多對象空間音頻的合理建模、高效壓縮與有效重建關鍵問題，提出基於張量分析理論構建空間音頻信號的高階張量模型，通過引入張量分解技術對多聲道音頻及空間音頻對象進行壓縮編碼，利用張量數據挖掘原理實現丟失聲道情況下的空間音頻重建，進一步結合空間音頻特點和張量約束條件來提高壓縮效率和重建效果，從而為空間音頻信號處理研究領域提供新的建模方法和分析思路，具有重要的理論和套用意義。

結題摘要

隨著人們對視聽享受要求的不斷提高，3D影音、3D遊戲等逐步走入人們的日常生活，由此引發三維音視頻技術的研究和套用需求。音頻信號也由最初的單聲道，不斷發展到立體聲及面向更多聲道的空間音頻，從而逐漸成為新的數字音頻媒體傳播形式。隨著聲道數目、音頻對象等因素的增多，傳統空間音頻信號處理方法變得越加複雜，不能帶來更可觀的壓縮效率和重建效果。項目提出了基於張量分解的空間音頻信號編解碼技術框架，包括張量空間音頻建模以及基於張量分析的空間音頻信號分解和重構方法，主客觀實驗表明在多聲道音頻數據上編解碼性能表現良好；針對空間音頻多元化特點，結合張量分析對面向對象的空間音頻信號進行建模，並研究了張量模型對面向對象的空間音頻編碼的擴展性。此外，項目基於張量分析設計實現了麥克風陣列語音信號降噪方法，實驗表明基於張量分解的陣列子空間方法表現最優。項目研究了基於張量丟失數據模型的空間音頻重建。首先構建了空間音頻的張量丟失數據模型，針對多聲道音頻信號丟失聲道的問題，研究張量分解和張量補全兩種方法的數據恢復性能，實驗表明後者在主客觀評價性能上均優於張量分解方法。此外，項目還基於此探究了利用張量補全數據恢複方法在HRTF數據信息的預測套用，實驗取得了較好的效果。項目結合Tucker分解和Tensor Train的優點，採用低秩張量近似，將高維HRTF數據信息表示為低維空間的特徵，在同為95%的壓縮率下，重建質量優於傳統PCA和其它張量方法。項目還研究了三維音頻的關鍵技術及主客觀評價方法，提出一種基於數據挖掘機理的兩層結構模型評價方法，主客觀一致性提高了30.7%。項目首次提出引入高階張量分析來對空間音頻信號進行合理建模、高效壓縮和有效重建，深入研究空間音頻信號的張量分析理論，其約束條件低秩性、稀疏性等在上述研究中均有體現，此外，結合目前熱門的深度學習，在無參考客觀質量評價套用上做了初步的探索，為後續的研究提供了思路和結果上的參考。

基於張量分析的空間音頻信號壓縮與重建技術研究

基本介紹

項目摘要

結題摘要

相關詞條

熱門詞條