《自回歸維納濾波語音增強方法研究》是依託北京工業大學,由鮑長春擔任項目負責人的面上項目。
基本介紹
- 中文名:自回歸維納濾波語音增強方法研究
- 項目類別:面上項目
- 項目負責人:鮑長春
- 依託單位:北京工業大學
項目摘要,結題摘要,
項目摘要
本課題以目前移動通信中普遍使用的線性預測語音編碼技術為背景,通過構建能量依賴的有限狀態語音譜包絡先驗碼書,研究複雜環境下的自回歸(AR)維納濾波語音增強方法。該方法將利用極大似然估計確定最終的語音AR譜包絡,並藉助估計的噪聲譜和觀測信號譜之間的相關性修正維納濾波器,以達到平衡語音和噪聲功率的目的。另外,該方法還將對觀測信號進行相空間重構來改善噪聲估計性能,並用深度信念網路和模擬退火等算法最佳化語音的AR譜包絡碼書。該方法不需噪聲分類,非常適合移動通信中噪聲類型和噪聲能量逐幀改變的非平穩噪聲抑制。
結題摘要
在實際的聲學環境下,語音互動設備(如行動電話)在獲取或處理語音時,不可避免地要受到環境噪聲的影響,為了減少環境噪聲的影響,課題以目前移動通信中普遍使用的線性預測語音編碼技術為背景,為保證語音處理設備接收到相對純淨的語音信號,提出了一系列單通道語音增強方法。考慮到現有方法存在的語音和噪聲模稜兩可的問題、噪聲泛化能力不足的問題、較少考慮長時時間動態時頻信息的問題以及自回歸(AR)模型增益估計不準確的問題,課題組以AR模型參數為先驗信息,對基於維納濾波的語音增強方法進行了深入研究。其中課題的重點研究工作包括:針對AR增益估計不準確的問題,提出了利用期望最大化(EM)技術、乘法疊代原則和深度神經網路(DNN)等技術提高AR參數的估計準確度;提出了先驗增益建模的隱馬爾科夫模型(HMM)的語音增強方法用於解決語音和噪聲的模稜兩可性;針對缺少長時時間動態時頻信息,提出了利用字典學習技術、非負矩陣分解技術、DNN技術和數據場技術為語音和噪聲建立時頻關聯性的方法;考慮到統計模型方法是一類不受噪聲類型影響的方法,項目組基於統計模型對噪聲的泛化能力也展開了較深入的研究工作。 除了上述重點研究工作之外,課題還從以下幾個方面對語音增強進行了研究。首先,將維納濾波思想擴展為基於聽覺掩蔽效應的時頻掩蔽形式,項目組利用GMM模型和DNN模型對語音和噪聲進行建模,並結合貝葉斯估計理論對時頻掩蔽展開研究;其次,針對缺少語音和噪聲相關性而造成的語音信息丟失較大的問題,提出利用雙耳線索編碼技術,並結合DNN模型來改善這一問題;考慮到大多數現存方法未考慮語音相位信息的問題,課題組提出利用相位修正技術和跳轉連線算法來恢復語音的相位。 實驗評測結果表明,本項目所提方法的性能均優於傳統的碼書驅動維納濾波方法。