基於聽覺關注度的音頻質量客觀評價技術研究

項目摘要

隨著人們套用期望值的日漸提高，音頻內容趨於多樣化與複雜化。心理學研究表明人們在複雜聲場環境中具有選擇性的聽覺關注機制，而現有僅基於聲學掩蔽模型和底層聲學顯著性特徵的傳統音頻質量評價方法與真實主觀聽覺感受存在較大差異，面臨新的挑戰。將心理選擇關注機制引入質量評價體系更符合人的聽覺特性，但其主觀個體差異性的干擾問題更突出。另外聽覺關注是自頂向下（基於場景信息）和自底向上（基於聲音顯著度）兩種機制互動作用的過程，存在場景信息和底層聲學特徵參數自上而下的關聯問題。針對以上問題本項目擬採用基於場景要義的聽覺特徵屬性分割和神經網路認知模型相結合的方法，從不同角度評價音頻質量以解決主觀個體差異性的干擾問題，提高基於聽覺關注度的音頻質量主觀評價方法的準確度；同時通過建立基於訓練集學習的聽覺關注度圖，以及聽覺關注度失真測度，擬合主客觀評價結果，最終建立複雜聲場環境中符合人類心理選擇注意機制的客觀評價模型。

結題摘要

本項目針對目前音頻質量評價方法未考慮心理關注機制的問題，研究基於聽覺關注度的音頻質量評價方法。探索人類的心理關注機制和音頻質量評價的互動影響機理，將人類的心理選擇關注機制引入到客觀評價模型，以關註失真測度反映最終客觀評價結果，建立複雜聲場環境中符合人類心理選擇注意機制的客觀評價模型。首先建立了基於抖動失真的移動音頻質量客觀評價模型，該模型在傳統的 PEAQ算法中引入能量均衡和抖動失真測度，解決移動音頻通信的質量評價問題。在指定碼率，四種丟包率條件下的測試結果表明模型輸出的客觀評價與主觀測試相關度可達到 90.1%，比傳統算法提升了16.1%。相關成果發表在多媒體質量評價專題國際會議（ QoMex），該成果技術提案被AVS國家標準組織接受。其次建立了聽覺關注度的移動音頻客觀評價模型，主要在主觀評價測試數據基礎上加入了 9個空間音頻水平方位參數和針對關注音的輸入參數，用神經網路擬合建立客觀評價模型。在四種典型場景，八種碼率模式的測試集中，最終模型輸出的客觀質量與主觀聽音測試相關度達到 91.2%，比基於抖動失真的算法提升 8.1%。該模型引入人類的心理聲學關注機制，提高了複雜聲場客觀評價與主觀評價的相關度。相關成果發表在國際權威會議（ ICASSP）。此外針對音頻網路傳輸套用建立了無參考質量評價模型。該模型在建模時增加誤碼包的音頻類型檢測，與有參考質量評價模型的相關度達到 87.2%，比原有算法提升了7.3%。相關成果發表在國際權威會議（ MMM, HPCC）。本項目實施過程中，在本領域相關會議和期刊上發表論文11篇；並申請國家發明專利 8項，其中授權5項； AVS 國家標準技術提案 1項，該技術提案已被 AVS國家標準組織接受。

基於聽覺關注度的音頻質量客觀評價技術研究

基本介紹

項目摘要

結題摘要

相關詞條

熱門詞條