說話人識別中時變魯棒的聲紋特徵研究

《說話人識別中時變魯棒的聲紋特徵研究》是依託清華大學,由鄭方擔任項目負責人的面上項目。

基本介紹

  • 中文名:說話人識別中時變魯棒的聲紋特徵研究
  • 依託單位:清華大學
  • 項目負責人:鄭方
  • 項目類別:面上項目
項目摘要,結題摘要,

項目摘要

說話人識別套用廣泛,對於公共安全和國防安全等都有重要的戰略意義。隨著時間的推移,人的聲紋會發生變化,從而嚴重影響說話人識別的精度,這就是聲紋的時變現象。本項目針對這一現象,從聲紋特徵入手,研究說話人識別的時變魯棒性問題。項目擬建設一個支持深入研究聲紋時變性的語音資料庫。在此資料庫基礎上採用數據驅動的方法,參照F比率的思想,探索人類語音基於頻帶能量的參數和基於聲道模型短管截面積比的參數在說話人個體的區分度和機率分布穩定性上的規律,研究用於說話人識別的時變魯棒性準則的計算公式;結合發聲機理和聽覺機理,通過短管合併、頻率彎折、幅度加權等方式修改語音特徵的計算方法,得到時變魯棒的聲紋特徵提取算法;研究不同聲紋特徵時變魯棒性優劣的判別準則,以指導聲紋特徵的選取與融合;構建原型系統,對所研究的聲紋特徵提取算法的正確性和有效性進行驗證。

結題摘要

隨著說話人識別技術的發展,說話人識別在現實生活中的各個領域得到了廣泛的套用。然而,隨著時間的推移,人的聲紋信息會發生變化,而這種變化嚴重影響了說話人識別系統的準確性,這就是聲紋中存在的時變現象。 本項目針對聲紋時變問題開展了一系列研究。首先,調研了國內外現有的聲紋時變研究方法,並確定了關於說話人識別時變聲紋特徵魯棒性的研究方向。第二,為了更好地分析聲紋時變現象和驗證方法的有效性,項目建設了兩套聲紋時變語音資料庫;其錄製原則為“盡最大可能保證時間是唯一變化因素”。兩套資料庫分別錄製於實驗室環境和戶外實際套用場景下,其一方面用於聲紋時變現象的科學研究,另一方面用於研究成果與實際套用的轉化。第三,針對時變說話人識別系統,本項目提出了一套衡量時變魯棒性的重要評價指標。第四,從信號域的角度出發,提出了基於頻帶能量的F-ratio為中間準則來計算各個頻帶的時變區分度。從特徵域,重點探討了兩種提高時變魯棒性的特徵提取算法。從人體的發聲機理和人耳的聽覺回響出發,提出了頻帶彎折和濾波器加權的兩種特徵提取算法;前者是通過調整濾波器的解析度來強調或弱化相應頻帶,後者是通過直接對濾波器的輸出進行加權來強調或弱化相應頻段。研究結果表明,兩種特徵提取算法均極大地解決了聲紋時變問題,並取得了時變錯誤率相對值11.87% (Mean)和21.01% (StDev)的下降。最後,結合科研成果,針對聲紋時變問題,構建了基於時間窗管道的說話人識別原型系統。在原型系統設計過程中,為了提高其在實際套用環境下的識別魯棒性,項目還陸續開展了基於短語音、跨語言、情感、語速等說話人識別魯棒性研究。 本項目不僅從科學研究的角度探究了聲紋時變問題,還實現了科學研究的成果轉化。目前,本項目開發的說話人識別原型系統已在公共服務、國防安全、商業金融等領域有著廣泛地套用,為國家信息安全和人民財產安全提供了重要的保障。

相關詞條

熱門詞條

聯絡我們