基於統計特徵分析的最優聲陣列聲源探測與重建

基於統計特徵分析的最優聲陣列聲源探測與重建

《基於統計特徵分析的最優聲陣列聲源探測與重建》是依託北京交通大學,由余晶晶擔任項目負責人的青年科學基金項目。

基本介紹

  • 中文名:基於統計特徵分析的最優聲陣列聲源探測與重建
  • 項目類別:青年科學基金項目
  • 項目負責人:余晶晶
  • 依託單位:北京交通大學
項目摘要,結題摘要,

項目摘要

目前基於可控回響功率的聲源定位與目標信號重建的研究存在陣列分布單一化、對非平穩相干噪聲魯棒性差、無法進行多聲源探測等問題,本項目擬針對浸入式動態多語音源場景進行實時魯棒的聲源探測和目標信號重建研究。主要內容有:採用統計特徵分析法,提取影響陣列性能的關鍵分布特徵參數,建立其與陣列性能績效矩陣間的直觀關係模型;融合動態聲學場景機率函式,建立基於最優關鍵特徵參數的麥克風位置控制機制,實現非計算機輔助的最優陣列集群構建;提出基於噪聲場可控回響相干功率分布對稱性的門限估計算法,實現自適應動態多聲源探測;利用時頻掩模消除非平穩噪聲影響,構造與人語音習慣相關的時間窗和與聲源速度相關的球形空間窗提升系統實時性。項目研究成果將揭示造成非規則陣列性能優劣差異的根本原因,為非計算機輔助的陣列分布最最佳化提供理論支持,為在多媒體虛擬/智慧型環境中的聲源探測和重建提供有效可行的方法。

結題摘要

目前基於可控回響功率SRP的聲源定位技術存在無法進行多源定位、最優陣列成因不明、計算量龐大難以實時處理等問題,制約了其在聲源位置和場景快速多變的浸入式語音環境中的套用。本項目採用統計特徵分析方法對最優麥克風陣列的關鍵分布特徵參數集和多聲源定位可控回響相關功率SRCP圖譜進行研究,針對運動多聲源複雜噪聲場進行魯棒自適應的聲源探測和重建。成果包括:發現和驗證了對陣列性能有決定性影響的麥克風分布關鍵特徵參數(陣列重心偏移、 陣列離散度參數、差分路徑距離二階矩和Pielou均勻指數等熵描述符)。基於最優陣元分布特徵參數和關鍵陣列性能指標之間的確定性模型,利用不同套用場景(說話人、干擾人的行為模式等)和頻譜的先驗信息,建立計算機輔助啟發式搜尋、非計算機輔助的雙曲線法和神經網路法三套非規則麥克風陣列最佳化方案,與傳統規則陣列相比有效抑制了噪聲並提升了空間解析度,不用經過最佳化計算即可得到與計算機輔助方法類似的最優陣性能。另外,將基於恆定誤報率的自適應算法引入麥克風聲源定位中,實現了抗混響的多語音源探測。 根據系統預先制定的誤報率和SRCP正負像素分布的相似性,採用實時SRCP圖譜目標點鄰域中只含有噪聲信號能量的負值像素點來估計針對目標點的聲源判決門限,解決了傳統SRP-PHAT無法進行多個聲源探測和無法應對聲源信號停頓的問題。為了進一步消除非平穩噪聲干擾源的影響,採用波束成型和時頻掩模技術結合進行目標語音的重建。將基於人聲時頻域信息的DNN-based masking與基於麥克風陣列分布的空域信息的Spatial clustering-based masking進行有機融合,來解決DNN預訓練數據與實際場景數據不符的問題,顯著提升重建信號信噪比和語言可懂度指數。本項目研究成果具有一定的學術意義,且可廣泛套用於智慧型人機接口,多媒體虛擬智慧型環境的構建、語音監控、智慧型車載和手持聲控/通信系統、遠程醫療監控、和三維虛擬軍事訓練/遊戲等。

相關詞條

熱門詞條

聯絡我們