聲紋表征模型及其漂移魯棒性實現方法研究

項目摘要

人不可能兩次踏進同一條河流，同樣，人不可能兩次發出同樣的語音，此即聲紋識別的時間漂移現象，該現象極大地制約了聲紋識別技術的實用化。要真正發揮聲紋識別技術在社會信息安全和自然人機互動等國家戰略至高領域中所起的重要作用，影響其穩定性的時間漂移問題亟待解決。旨在為研髮漂移魯棒性的聲紋識別技術提供核心算法支撐，並在仿人聽感信息處理領域作前沿探索，本項目擬沿兩條途徑展開工作：首先構建聲紋表征模型，將實驗語音學知識引入聲紋統計建模，對現有的多種語音特徵進行合理表達與整合。研究聲紋漂移現象的機器學習與理解，利用聚類和流形學習等機器學習方法實現個體聲紋漂移現象的可視化從而作機制性建模，並找尋不同個體間聲紋漂移機制的遷移學習策略。其次借鑑人類的感知機理，初步探索聲紋的漂移不變性表達機制及其模型實現。我們還將通過開發漂移魯棒性的聲紋識別原型系統來驗證所得表征模型與漂移魯棒性實現方法的正確與有效性。

結題摘要

由於發音過程的不穩定性，人不可能兩次發出同樣的語音，此即聲紋識別的漂移現象，該現象極大地制約了聲紋識別技術的實用化。本項目從時間和情感兩個維度研究影響聲紋識別穩定性的漂移問題，為研髮漂移魯棒性的聲紋識別技術提供核心算法支撐，並在仿人聽感信息處理領域作前沿探索，本項目開展以下五方面工作： 1、聲紋時間漂移現象考察。通過對6位說話人（4男2女）連續3年採集的語音數據進行分析，發現隨著時間的推移，3個月以上識別率有明顯下降，聲紋時間漂移現象存在，並體現在語音基頻範圍明顯的波動與共振峰的變化。 2、聲紋情感漂移現象的機器學習與理解。利用聚類和流形學習等機器學習方法對個體聲紋數據進行可視化，發現聲紋情感漂移的“音素相關現象”，即同一說話人發生相同情感變化時其相同音素髮音的變化趨勢一致；兩個說話人中性和情感發音下的相同音素類模型之間的距離存在強相關性，中性和情感狀態下的說話人模型的對應GMM分量之間距離的遠近關係保持基本不變，中性和情感模型的GMM分量的“鄰居”基本類似，即“鄰居相似現象”。 3、提出基於形變補償的聲紋識別技術框架（DC）。首先通過形變測技術檢測漂移語音的形變程度計算形變因子，然後在訓練與識別兩個階段分別在模型層與特徵層對漂移所引起的語音變化進行補償，最終提高聲紋識別技術對語音漂移的魯棒性。訓練階段採用變形生成技術對聲紋模型做拓展修整；識別階段可選擇採用特徵規整技術對聲紋特徵進行規範化處理。 4、研究基於形變補償的漂移魯棒性的聲紋識別算法。我們提出並研究了4種算法：基於基頻映射的情感拓展的聲紋表征模型建模方法、基於FUZZY SVM的失配檢測算法、基於“鄰居相似現象”的情感拓展的聲紋表征模型建模方法、基於EFA規整特徵的情感補償算法。基於自行採集的MASC情感語音庫，以上算法相對於GMM-UBM算法取得了2-10個點的識別性能提升。 5、聲紋識別的人機性能對比在MASC庫上進行聲紋識別的人機性能對比試驗，將人耳聽辨與變形補償後的聲紋識別算法進行結果對比，得到的結論是：機器識別性能遠優於對於單人聽辨的性能；語音情感變化對機器性能造成的影響遠遠大於對人耳產生的影響；多人聽辨的結果融合遠高於單人的結果，甚至超過機器識別性能。項目提交發明專利2項，獲準授權發明專利4項。在模式識別與語音處理的國際國內學術會議與國內重要期刊上發表學術論文10篇

聲紋表征模型及其漂移魯棒性實現方法研究

基本介紹

項目摘要

結題摘要

相關詞條

熱門詞條