面向自然環境下語音增強的複數域半盲分離方法研究

項目摘要

語音信息處理在社會、經濟和國家安全等領域扮演著重要角色。例如，在關乎國家安全和社會發展的計算機感知與決策、無人駕駛等關鍵技術中，必須進行自然環境下的語音識別和內容理解等處理。然而，目前語音信息處理存在著性能瓶頸，致使我國在這些關鍵技術上與世界先進水平存在差距。因為自然環境下語音處理面臨的最大挑戰是複雜多樣的干擾，而當前的語音增強（消噪）性能不令人滿意，如最具潛力的頻域語音盲分離方法也存在對環境敏感等問題，本項目擬提出更為有效的語音增強方法，幫助解決語音信息處理的瓶頸困難。主要通過研究頻域語音特性、提取和利用與環境無關的語音信息，提出一系列頻域語音分離的複數域半盲分離算法，在環境變化下表現良好的語音信噪比、可懂度和穩定性。本項目的完成在理論上能有力推動盲源分離和半盲分離在複數域的發展，在套用上能為語音信息處理提供穩定純淨的語音信號，進而促進我國計算機感知與決策、無人駕駛等關鍵技術的迅速發展。

結題摘要

頻域盲分離是一種頗具潛力的語音增強方法，但存在著部分頻點分離失敗、對環境敏感等問題。本項目通過研究語音的頻域特性，提出了一系列利用語音特性且對環境魯棒的複數域半盲分離算法。主要研究成果有：（1）描述了頻域語音的非環形性及其與環境之間的關係，表明處於低混響環境時，頻域語音為環形信號；而處於高混響環境時，為環形和非環形信號的混合信號。與非高斯性相比，非環形性估計在短數據和高噪聲情況下仍具有較高的準確度和穩定性。（2）提出並證明了兩個引理，一是關於信號矢量及其成分之間的環形性關係，二是從可觀測的混合信號非環形度推斷未知源信號非環形度的方法。這兩個引理為非環形性的定性和定量套用提供了理論基礎。（3）提出了套用語音非環形度的自適應分離算法，實現了短數據、高混響下語音分布的魯棒估計和性能提升。（4）基於相鄰頻點語音幅值的相關性，給出了由混合語音或說話人其他語音構建參考信號的方法，定義了區分度更優的能量相關和夾角餘弦距離函式，提出了集語音分離和順序模糊性消除於一體的半盲分離算法，使分離信噪比和效率均得到提高。（5）提出了一種分頻段語音分離算法，根據復峭度確定語音的分頻段原則，基於語音非環形性切換負熵最大化算法的非線性函式，性能優於無頻段區分算法。（6）根據乘以任意復常量後復變數間Hermitian角保持不變的特性，針對語音數目大於麥克風數目的欠定情況，提出了利用語音波達方向的半盲抽取和分離算法，改進了輸出語音的信噪比和可懂度。（7）在標準張量分解算法上增加了頻點互相關或空間平行因子約束，探索了語音分離的約束張量分解方法，能解決亂序問題且提高分離性能。（8）基於FPGA完成了語音分離的SOPC硬體。

面向自然環境下語音增強的複數域半盲分離方法研究

基本介紹

項目摘要

結題摘要

相關詞條

熱門詞條