基於空間聽覺感知的雙耳語音分離和識別關鍵問題研究

《基於空間聽覺感知的雙耳語音分離和識別關鍵問題研究》是依託東南大學,由周琳擔任項目負責人的面上項目。

基本介紹

  • 中文名:基於空間聽覺感知的雙耳語音分離和識別關鍵問題研究
  • 項目類別:面上項目
  • 項目負責人:周琳
  • 依託單位:東南大學
中文摘要,結題摘要,

中文摘要

混合聲信號的分離和重構是人耳聽覺系統感知和理解的基礎,也是魯棒語音信號處理的關鍵。針對基於聽覺場景分析的單通路語音分離過分依賴基音周期估計準確性、無法分離清音等不足,本項目基於人耳聽覺的空間感知機制,研究基於空間線索的雙耳語音分離和識別中分離線索模型、分離機制等關鍵問題,具體內容包括:1、研究基於疊代結構的感知單元同時組織過程;2、將深度神經網路DNN作為分離線索的生成機率模型,研究基於隱馬爾科夫模型HMM-DNN框架下的感知單元序列組織過程;3、針對語音識別,研究基於浮值掩蔽重構和丟失感知單元的分離目標語音聲學模型最佳化問題。本項目將給出基於空間線索的雙耳語音分離框架和識別算法,研究成果為魯棒語音處理提供了新的研究思路和方向。

結題摘要

混合聲信號的分離和重構是人耳聽覺系統感知和理解的基礎,本項目基於聽覺的空間感知機制,研究基於空間線索的雙耳語音分離和識別關鍵問題,具體包括:模擬人耳的時頻分析特性,將子帶聲信號的互相關函式和耳間強度差作為空間線索,建立子帶深度神經網路DNN(Deep Neural Network),基於子帶融合,實現目標聲源定位;基於空間線索的時間相關性,將長短時記憶網路LSTM(Long Short Term Memory)作為分類器,連續幀的空間線索作為LSTM前、後時間節點的序列信息,在低信噪比和強混響下實現空間方位估計;基於空間線索的子帶相關性,實現基於深度卷積殘差網路的空間方位估計,卷積網路的參數共享減少了模型規模,同時其殘差結構降低了模型訓練複雜度,對混響、信噪比有更好的泛化能力;在子帶內將語音分離作為有監督的模式識別問題,利用空間特徵和頻譜特徵,將目標聲源的理想二值掩膜和理想比值掩膜作為訓練目標,得到基於DNN的雙耳語音分離結構,提升語音分離的感知質量;根據空間線索的時序性,利用雙向LSTM網路對連續時頻單元的空間線索建模,用於估計目標聲源的掩膜,進行語音分離,分離語音感知質量優於DNN網路;將空間方位估計與語音分離相融合,方位信息作為分離的線索,實現不同聲源的重構,重構後的聲信號重新估計方位,形成疊代結構,提升分離語音的感知質量;利用連續時頻單元的多解析度耳蝸譜圖的拼接特徵參數,訓練基於目標聲源掩膜的DNN網路,進一步提升分離語音的感知質量和可懂度;基於生成對抗網路在圖像增強上的套用,將語音的二維語譜圖作為標籤,提出基於生成對抗網路的語譜圖增強算法,大幅提升語音感知質量;將空間分離後目標語音的美爾濾波參數和Gammatone濾波子帶參數作為識別特徵,利用邊緣機率估計和數據估計方法,實現分離語音的識別,說話人干擾下的識別性能有顯著提升。本項目研究工作基於空間信息的語音分離,提高了強混響、強噪聲、多說話人等複雜聲學環境下,目標聲源的感知質量和可懂度,為提高語音信號處理系統魯棒性提供了新的途徑。

相關詞條

熱門詞條

聯絡我們