基於圖像視覺分析與人類聽覺系統機理的單通道CASA研究

項目摘要

本項目交叉了圖像視覺處理、計算聽覺場景分析（CASA）和人類聽覺系統原理，以圖像視覺分析與人類聽覺系統機理為新思路，研究基於CASA理論的一類新型語音分離理論與算法，以解決單通道語音分離技術中存在的多項挑戰性關鍵問題，改進與提升語音分離系統的整體性能與實用性。項目一方面以對語音時頻譜圖或Cochleagram圖的圖像視覺性分析為突破點，研究混合語音信號中原始語音信號的組合遮掩關鍵性問題的圖形化解決方法。另一方面圍繞我們提出的人類聽覺系統機理的基本概念，以計算機模型和算法對該理論進行原始創新性描述。從圖像視覺分析技術與基於模型學習的CASA基本機理出發，探索研究採用這一計算模型與算法實現語音分離過程中模型間約束關係表示問題、特徵提取問題和語音模式魯棒性估計問題的有效解決方法。進一步圍繞提出的兩類新方法，探索基於模型學習但說話人非依賴性的語音分離系統實現過程，揭示新模型與方法的有效性和實用性。

結題摘要

基於計算聽覺場景分析（computational auditory scene analysis，CASA）理論的語音分離技術成為目前單通道語音分離的主角。雖現已有一些基於CASA理論的語音分離技術被提出，但是縱觀現今的CASA技術，還存在多項挑戰性的問題與困難。如何解決這些挑戰性問題，正是本項目的目標所在。區別於現有的研究方法，項目新穎性的以圖像視覺性分析與人類聽覺系統機理為出發點，力求從新的思路提出並研究一系列新模型與方法，構建基於CASA理論的一類新型表示方式，形成一種解決現有挑戰性問題的可行且有效的方案，為今後單通道語音分離問題的研究提供新理論與方法。本項目主要研究工作分為兩個方面，分別是對CASA理論中如何融合視覺感知特徵、視覺特徵的提取和融合理論的研究和基於聽覺機理的CASA語音分離聲學模型及其魯棒性語音分離算法研究。主要工作和成果如下： 1、研究基於視覺圖像分析與語音分析相結合的特徵提取方法與語音切片、組合和遮掩方法。具體為：（1）提出了一種基於視覺感知的CASA語音分離模型與算法。融合視覺感知技術與CASA，通過將視覺空間的連續信息加入聽覺場景分析中基於correlgram相關性特徵的切片算法，形成分類新模型進行二分類，並提出了新的基於圖像區域生長的語音片段組合方法和代價函式，實現更最佳化的切片算法。（2）提出基於局域模式識別的方式改進切片組合技術新方法。（3）基於視覺感知機理提出一種新型空間位置連續相關語音特徵，及其在語音基音跟蹤上的套用。 2、從人類聽覺系統機理角度出發，研究適合於該理論的語音模型表示以及基於模型的單麥克風語音分離關鍵技術。分析並研究該模型的模型拓撲、訓練算法、並最最佳化其表現語音相關性能力。（1）通過對語音聽覺機理進行研究，提出了一種基於深度學習模型DBNs神經網路結合HMM的二維語音聲學模型；（2）從抗噪性和魯棒性視角出發，研究並提出二維語音聲學模型的魯棒性特徵表征模型local-CNN模型（3）從語音特徵和圖像特徵融合抗噪的角度出發進一步研究了聽覺模型的抗噪性模型，提出了PUDBNN模型，並將local-CNN與PUDBNN模型相結合提出魯棒性單麥克風語音分離新算法。在國內外期刊會議上共發表論文16篇、SCI檢索5篇、EI檢索10篇，申請國家發明專利2項，授權1項。

基於圖像視覺分析與人類聽覺系統機理的單通道CASA研究

基本介紹

項目摘要

結題摘要

相關詞條

熱門詞條