語者辨識

語者辨識

語者辨識,或者稱為說話人識別,是通過對說話人語音信號的分析處理,確認其是否在所記錄的語者集合中並確認說話人身份的一種技術。

基本介紹

  • 中文名:語者辨識
  • 外文名:Speaker Recognition
  • 別名:說話人識別
  • 套用:語音撥號、客戶服務熱線等
概述,系統結構,適用語者辨識的模型,

概述

語者識別與語音識別技術相似,都是在對原始語音信號的特徵分析的基礎上,建立相應的參考模型並按照一定的規則對語音信號進行識別。不同的是,語音識別力求將不同說話人的語音差異歸一化,而語者識別側重於挖掘不同說話人語音信號中的特徵差異。語者識別是一種新興技術,可 以套用在語音撥號、客戶服務熱線、電話購物等一系列的商務自動化的領域中。

系統結構

一般建立並套用一個語者識別系統需要兩個不同的階段,即訓練階段和識別階段。在訓練階段中,系統的每一個說話者說若干訓練語料,系統根據這些語料,通過訓練學習得到描述該說話者發音的模版模型或者機率模型,並組織成一個說話人模型庫。而在識別階段中,把從待識別語者說出的語音信號中提取的特徵參數,與在訓練過程中得到的說話人模型庫進行匹配,並且根據一定的相似性準則進行判定,最終輸出識別結果。
語者辨識

適用語者辨識的模型

目前為止效能較高的語者辨識模型大致分為下列幾種:
(1) 隱藏式馬可夫模型(HMM, Hidden Markov Model):主要方式是把每位語者的聲音依語言學的分類,定義一個一個單獨的音素(phone),每個音素再用一個 HMM 來描述。
(2) 高斯混合模型(GMM, Gaussian Mixture Model):為 HMM 的 簡化版,主要是把語者的聲音特性分群,之後每一群聲學特性用一高斯分布來描述。
(3) 類神經網路(Neural Networks):如 RNN、RBF 網路等。
(4) 聲學知識基礎模型:如專家系統。

相關詞條

熱門詞條

聯絡我們