《基於壓縮感知的單通道混合語音分離理論及算法研究》是依託東南大學,由郭海燕擔任項目負責人的青年科學基金項目。
基本介紹
- 中文名:基於壓縮感知的單通道混合語音分離理論及算法研究
- 項目類別:青年科學基金項目
- 項目負責人:郭海燕
- 依託單位:東南大學
中文摘要,結題摘要,
中文摘要
一直以來,單通道混合語音分離都是語音信號處理的重要研究方向。近幾年來出現的研究熱點—壓縮感知,為單通道混合語音分離的研究提供了新的思路。本項目先基於壓縮感知,研究單通道混合語音準確分離的理論條件,包括:新的基於壓縮感知的單通道混合語音分離建模方法,準確分離和準確重構的等價條件分析和準確重構條件的理論分析。在此理論基礎上,本項目還研究設計實用的基於壓縮感知的單通道混合語音分離算法,包括:適用於小規模訓練數據的語音信號自適應稀疏基的構造算法,基於改進階梯正交匹配追蹤的快速分離算法,和針對含清音混合語音幀的雙重分離方案。本項目的研究成果可廣泛用於語音增強、魯棒語音識別、魯棒說話人識別、電話會議、助聽器設計等領域。
結題摘要
語音分離一直是語音信號處理中的重要研究方向,可作為前端提高語音信號處理系統的魯棒性。壓縮感知(Compressed sensing, CS)理論研究基於低維觀測信號重構高維原始信號,為欠定語音分離提供了新的研究思路。因此,本課題研究基於CS理論,研究單通道混合語音分離中的理論和實用算法。具體研究內容包括:鑒於CS理論中觀測信號與單通道混合語音信號數學表達式上的一致性,建立基於CS的單通道混合語音分離模型;提出了基於字典更新的正交匹配追蹤算法(dictionary-updated orthogonal matching pursuit, DUOMP)算法,在每次疊代中,對殘差和原子都進行更新,使得更新的字典原子與更新的殘差在時域結構上更匹配;對具有顯著時域結構特徵的混合語音幀,構建基於時域結構信息的自適應聯合字典,以區分不同類型的混合語音幀;構造基於基頻狀態的子字典,對同一說話人的不同語音進行區分;提出了基於匹配權係數選擇的搜尋最佳化重構算法,以減少子字典間的交叉表示;提出了基於幀間相關性,對分離效果差的幀進行分離校正。課題組開展的研究工作為單通道混合語音分離的研究提供了新的途徑,研究成果可廣泛用於可廣泛用於語音增強、魯棒語音識別、魯棒說話人識別、電話會議、助聽器設計等領域。