《基於幾何約束張量分解的語音半盲分離方法研究》是依託大連理工大學,由龔曉峰擔任項目負責人的青年科學基金項目。
基本介紹
- 中文名:基於幾何約束張量分解的語音半盲分離方法研究
- 依託單位:大連理工大學
- 項目類別:青年科學基金項目
- 項目負責人:龔曉峰
項目摘要,結題摘要,
項目摘要
近年來張量語音分離已成為語音增強領域新的研究熱點。與矩陣框架下的傳統語音分離相比,張量運算能更好地挖掘頻域語音二階統計量在空-時域的多維結構,因此張量語音分離在可唯一辨識性、環境參數變化下的穩定性等方面具有明顯優勢。然而,現有的張量模型未能完整反映頻域語音二階統計量在空-時域的多維結構,而且張量語音分離仍面臨由頻點順序模糊帶來的巨大挑戰。此外,部分頻點上由張量病態結構導致的收斂困難,及特定語音的快速抽取,也是現有張量語音分離方法未能解決的重要問題。為此,本項目將深入研究一種極具潛力的語音分離方法:幾何約束張量語音半盲分離,通過從語音觀測中提取的粗略幾何信息對張量語音分離進行約束,解決順序模糊問題,並進一步提高分離性能。本項目的研究不僅能有效推動張量語音分離方法的發展,還將為我國解決智慧型信息系統、計算機感知、無人駕駛等關鍵技術中的語音處理難題提供理論支撐,具有重要的理論價值和實用前景。
結題摘要
語音分離一直是語音信號處理的核心內容之一。由於語音在時域體現出高階線性卷積混合形式,難以直接求解,頻域語音分離得到了越來越多的關注。特別地,隨著張量等高維數學工具越來越多地被套用至盲源分離之中,基於張量分解的頻域語音分離成為近些年來的研究熱點。頻域語音分離在關鍵在於利用不同頻點信號間的相關性,在實現語音成分分離的同時對之進行順序對齊。現有的基於張量分解的語音分離方法通常將不同頻點的信號看作是孤立的混合觀測,分別進行盲分離之後再基於信號之間的相關性進行順序對齊,其張量模型並未充分刻畫頻域語音信號的特性,在方法上缺乏對幾何先驗知識的刻畫和利用,在半盲語音抽取方面也存在不足。因此,本項目工作正是針對上述問題而展開的。主要內容包括,能夠充分刻畫頻域語音信號統計特性的張量模型研究,具有定序分解能力的幾何約束張量分解方法及其在語音半盲分離中的套用研究,幾何約束下語音信號的半盲抽取方法研究。 項目負責人及所在團隊針對上述內容進行了深入研究,建立了頻域語音信號的聯合張量分解模型,提出了廣義联合對角化,聯合典範多因子分解,張量聯合對角化等用於進行聯合張量分解的算法及其快速算法,並將之成功用於實際語音的半盲分離之中;提出了三種非正交聯合對角化算法,兩種結合統計獨立性約束的張量分解方法;與此同時,深入研究了幾何或波形約束下的語音半盲抽取方法,並在實際語音的分離實驗中獲得了較好的性能。發表12篇論文(SCI檢索1篇,EI檢索6篇),另有1篇已投往IEEE Trans. Signal Processing(審稿意見為小修後錄用),圓滿完成了研究任務,達到了預期目標。特別地,項目成果頻域語音信號在二階統計域的聯合張量分解結構,以及該結構與廣義联合對角化,互耦典範多因子分解,張量聯合對角化等方法的內在聯繫,在實際語音分離實驗中顯著改善了語音分離張量方法的性能,因此具有重要的理論意義與實用價值。