音頻信號處理中基於模型的語音與音樂信號分離算法

音頻信號處理中基於模型的語音與音樂信號分離算法

《音頻信號處理中基於模型的語音與音樂信號分離算法》是依託深圳大學,由鄭能恆擔任項目負責人的青年科學基金項目。

基本介紹

  • 中文名:音頻信號處理中基於模型的語音與音樂信號分離算法
  • 項目類別:青年科學基金項目
  • 項目負責人:鄭能恆
  • 依託單位:深圳大學
項目摘要,結題摘要,

項目摘要

基於內容的音頻信息檢索是網路多媒體信息服務的關鍵技術之一,具有廣泛的套用前景。當前音頻信息檢索的主要技術瓶頸之一是語音與音樂混疊信號的分離。不同信號的混疊導致語音/音樂識別與歸類準確率的下降,從而降低檢索結果的可靠性。本項目擬研究一種可靠的信號分離算法,用於從混疊信號中分離出語音與音樂,從而提高語音識別的準確率,最終達到可靠、高效的音頻檢索的目標。針對本項目所處理的音頻檔案的特性,我們提出一種基於模型的分離算法。首先通過音頻分割算法在一個音頻檔案中分割出純語音、純音樂、以及語音與音樂混疊信號。在此基礎上,通過信號分析與建模技術,獲得關於純語音的和純音樂的可區分、可分離的特徵參數及其模型。根據同一段音頻流內同類信號之間的相關性,這些模型提供了混疊信號對應成分的先驗知識。利用這些先驗知識,實現語音與音樂信號的有效分離。

結題摘要

以語音識別、音樂分類等為基礎的音頻內容的分析與識別是網路多媒體信息服務的關鍵技術之一。不同音頻源信號的混疊與相互干擾是該技術廣泛套用的主要瓶頸。本項目針對這一關鍵問題,從可靠的音頻分割、噪聲估計與分析建模、語音與音樂信號的特徵空間矩陣分析、語音與干擾信號源分離等方面進行了深入的研究,針對不同的噪聲源提出了若干個語音分離與增強算法。特別地,著眼於提高語音識別率這一最終目標,在基於非負矩陣分解的語音分離算法中,引入語音識別模型構造基於語音識別似然率成績(Viterbi score)的代價函式,實現了有效的語音與音樂信號的分離。一般來說,語音分離算法在剔除干擾信號的同時往往帶來一定程度的語音失真,這導致增強後的語音並不能直接帶來語音識別率的提高。本項目所提算法實現了語音增強和語音識別的有機統一。進一步揭示了語音識別似然率成績作為語音識別結果置信測度的科學性,對基於統計模型的現代模式識別具有普遍性的指導意義。 本項目具體研究成果包括出版語音處理專著1本,期刊論文3篇,會議論文9篇;論文檢索方面:SCI 檢索1篇,EI 檢索7篇;培養青年學術骨幹2人,碩士研究生6人(畢業3人、在讀3人)。

相關詞條

熱門詞條

聯絡我們