實時聲紋辨識系統與方法

實時聲紋辨識系統與方法

《實時聲紋辨識系統與方法》是四川長虹電器股份有限公司於2018年4月17日申請的專利,該專利申請號為2018103430334,公布號為CN108648760A,公布日為2018年10月12日,發明人是吳郢、展華益、劉明華、伍強、許亮,該發明涉及語音信號處理技術領域。

《實時聲紋辨識系統與方法》包括:語音採集和存儲模組,用於採集和存儲語音數據;音素檢測模組,用於檢測所述語音數據中存在的音素類別和音素位置;說話人辨識模組,用於根據所述音素類別和音素位置確認說話人身份信息。該發明可以實現對與文本無關的說話人的別,提高了用戶的體驗度;採用音素作為語言中最基本的組成單元,具有更高可辨識性,同時將與文本無關的內容轉化為文本相關,降低了對說話人識別的難度。

2021年11月,《實時聲紋辨識系統與方法》獲得2020年度四川專利獎二等獎。

(概述圖為《實時聲紋辨識系統與方法》的摘要附圖)

基本介紹

  • 中文名:實時聲紋辨識系統與方法
  • 公布號:CN108648760A
  • 申請號:2018103430334
  • 申請日:2018年4月17日
  • 申請人:四川長虹電器股份有限公司
  • 地址:四川省綿陽市高新區綿興東路35號
  • 發明人:吳郢、展華益、劉明華、伍強、許亮
  • 專利代理機構:四川省成都市天策商標專利事務所
  • 代理人:譚德兵、劉渝
  • Int.Cl.:G10L17/22(2013.01)I、G10L17/04(2013.01)I、G10L17/02(2013.01)I、G10L25/24(2013.01)I、G10L25/45(2013.01)I
  • 類別:發明專利
  • 公布日:2018年10月12日
專利背景,發明內容,專利目的,技術方案,改善效果,附圖說明,權利要求,實施方式,榮譽表彰,

專利背景

隨著人工智慧技術的快速發展,越來越多的帶有人工智慧技術的產品出現在人們的日常生活中,特別是近年的智慧型音箱異軍突起。其中聲紋識別技術幾乎是所有的智慧型音箱的標配,用戶使用自己的聲音就可以完成賬戶登錄、購物支付等。
2018年4月之前說話人識別技術存在以下問題:
1)搭載在這些智慧型產品上的聲紋識別技術都在雲端完成的,即產品只是作為語音收集的入口,而雲端完成聲紋識別的過程,而真正實現本地化運行聲紋識別技術的產品還非常少,或者精度無法滿足實際需求;
2)已有的說話人識別技術方案大都採用文本相關的方式,嚴重影響用戶的體驗度。

發明內容

專利目的

《實時聲紋辨識系統與方法》克服了2018年4月之前技術的不足,提供一種實時聲紋辨識系統與方法,用於實現對與文本無關的說話人的識別,提高用戶的體驗度。

技術方案

《實時聲紋辨識系統與方法》包括:
語音採集和存儲模組,用於採集和存儲語音數據;音素檢測模組,用於檢測所述語音數據中存在的音素類別和音素位置;說話人辨識模組,用於根據所述音素類別和音素位置確認說話人身份信息。
為了更好地實現該發明,進一步的技術方案是:
根據該發明的一個實施方案,所述說話人辨識模組,包括:
單音素的說話人辨識模組,用於識別單個音素的身份信息,將一個音素和所有註冊人的此音素比較相似度,判斷此音素的身份信息。
多音素融合的說話人辨識模組,用於將單音素識別的結果進行融合,將語音中音素識別為最多的人作為此段語音的身份信息。
根據該發明的另一個實施方案,通過距離判斷兩個音素之間的相似度。
該發明還可以是:一種實時聲紋辨識方法,包括:步驟S1:採集和存儲語音數據;步驟S2:檢測所述語音數據中存在的音素類別和音素位置;步驟S3:根據所述音素類別和音素位置確認說話人身份信息。根據該發明的另一個實施方案,所述步驟S2,包括:先進行語音特徵提取;再將提取的所述語音特徵進行滑窗處理;然後進行音素分類和音素位置映射。根據該發明的另一個實施方案,提取所述語音特徵的方法,包括:提取梅爾頻率倒譜係數特徵,記錄該特徵中每一幀特徵對應於原始語音數據上的起始位置和終止位置。
根據該發明的另一個實施方案,進行所述音素分類的方法,包括:首先訓練一個音素分類器,然後用所述分類器對每一個語音滑動視窗進行分類。根據該發明的另一個實施方案,訓練所述音素分類器的方法,包括:音素樣本的準備:採用標定音素的真實視窗大小做前後隨機滑窗,把與真實的視窗之間的交集大於80%的滑動視窗作為標定的音素類的正樣本;特徵提取:將正樣本歸一化到同樣的長度L,提取梅爾頻率倒譜係數特徵,假設幀長為A毫秒,步長為B毫秒,每個幀長內就會得到一個C維的特徵向量,假設音素數據有N幀,這樣得到CxN的二維矩陣X,將此X矩陣轉換為一個一維特徵向量,長度為NxC;訓練分類器:根據以上提取的特徵對分類器進行訓練。
根據該發明的另一個實施方案,映射所述音素位置的方法,包括:1)計算權利要求7中每個視窗中的起始幀和終止幀對應於語音數據的起始位置和終止位置;2)將視窗的起始幀對應的數據起始位置和終止幀對應的數據終止位置作為此視窗在重採樣語音數據上對應的位置。根據該發明的另一個實施方案,在語音特徵提取之前進行語音數據重採樣,進行所述語音數據重採樣的方法包括:設定M個採樣尺度係數,對大於1的係數採用上採樣,對於小1的係數採用下採樣,使得一條語音數據便可以得到M條語音數據。

改善效果

《實時聲紋辨識系統與方法》可以實現對與文本無關的說話人的別,提高了用戶的體驗度;採用音素作為語言中最基本的組成單元,具有更高可辨識性,同時將與文本無關的內容轉化為文本相關,降低了對說話人識別的難度。

附圖說明

圖1為根據《實時聲紋辨識系統與方法》一個實施例的語音採集和存儲模組示意圖。
圖2為根據該發明一個實施例的音素檢測模組示意圖。
圖3為根據該發明一個實施例的基於單音素的說話人辨識模組示意圖。
圖4為根據該發明一個實施例的基於多音素的說話人辨識模組示意圖。

權利要求

1.《實時聲紋辨識系統與方法》包括:步驟S1:採集和存儲語音數據;步驟S2:檢測所述語音數據中存在的音素類別和音素位置;包括:先進行語音特徵提取;再將提取的所述語音特徵進行滑窗處理;然後進行音素分類和音素位置映射;提取所述語音特徵的方法,包括:提取梅爾頻率倒譜係數特徵,記錄該特徵中每一幀特徵對應於原始語音數據上的起始位置和終止位置;步驟S3:根據所述音素類別和音素位置確認說話人身份信息。
2.根據權利要求1所述的實時聲紋辨識方法,其特徵在於進行所述音素分類的方法,包括:首先訓練一個音素分類器,然後用所述分類器對每一個語音滑動視窗進行分類。
3.根據權利要求2所述的實時聲紋辨識方法,其特徵在於訓練所述音素分類器的方法,包括:音素樣本的準備:採用標定音素的真實視窗大小做前後隨機滑窗,把與真實的視窗之間的交集大於80%的滑動視窗作為標定的音素類的正樣本;特徵提取:將正樣本歸一化到同樣的長度L,提取梅爾頻率倒譜係數特徵,假設幀長為A毫秒,步長為B毫秒,每個幀長內就會得到一個C維的特徵向量,假設音素數據有N幀,這樣得到CxN的二維矩陣X,將此X矩陣轉換為一個一維特徵向量,長度為NxC;訓練分類器:根據以上提取的特徵對分類器進行訓練。
4.根據權利要求2所述的實時聲紋辨識方法,其特徵在於映射所述音素位置的方法,包括:
1)計算權利要求2中每個視窗中的起始幀和終止幀對應於語音數據的起始位置和終止位置;
2)將視窗的起始幀對應的數據起始位置和終止幀對應的數據終止位置作為此視窗在重採樣語音數據上對應的位置。
5.根據權利要求1所述的實時聲紋辨識方法,其特徵在於在語音特徵提取之前進行語音數據重採樣,進行所述語音數據重採樣的方法包括:設定M個採樣尺度係數,對大於1的係數採用上採樣,對於小1的係數採用下採樣,使得一條語音數據便可以得到M條語音數據。

實施方式

如圖1所示,語音採集和存儲模組,其用於獲取語音數據並存儲在本地端。如圖2所示,音素檢測模組,其音素檢測流程包括如下:語音數據重採樣,語音數據重採樣的目的是為了能檢測到不同長度的音素。數據重採樣的方法為:設定M個採樣尺度係數,對大於1的係數採用上採樣,對於小1的係數採用下採樣,這樣一條語音數據便可以得到M條語音數據。特徵提取,方法為:對M條語音數據提取梅爾頻率倒譜係數特徵,同時保存特徵中每一幀特徵對應在語音數據上的起始位置和終止位置坐標。語音特徵滑窗處理,方法為:設定一個固定視窗大小和一個固定的步長,對3-2)中語音特徵做滑窗,並記錄每個視窗的起始幀和終止幀的位置信息。
音素分類,方法為:分類器對每一個滑窗進行分類,給出每一類的得分。音素位置映射,方法為:首先計算3-3)每個視窗中的起始幀和終止幀對應於3-2)中的語音數據起始位置和終止位置,然後將視窗的起始幀對應的起始位置和終止幀對應的終止位置作為此視窗在對應的語音數據上對應的位置,最後將此視窗的起始位置和終止位置分別除以對應的3-1)中的採樣尺度係數,就可以得到在原始數據上面的位置信息。音素去重,方法為:採用非極大抑制(NMS)方法濾掉得分低、位置重複的音素,得到最終的檢測結果,即音素的類別和對應的位置信息。如圖3所示,基於單音素的說話人辨識模組,其通過比較兩個音素的相似度來確定這個兩個音素是否是屬於同一個人。如圖4所示,基於多音素融合的說話人辨識模組,其將單音素識別的結果進行融合,以及將語音中音素識別為最多的人作為此段語音的身份信息。
實施例,對識別10個說話人的具體步驟,可包括:S1、訓練階段S11、數據收集收集語音資料庫,標定音素的類別和位置,根據中文的聲母和韻母的發音規則,將音素分為a,aa,ai,an,ang,ao,b,c,ch,d,e,ee,ei,en,eng,er,f,g,h,i,ia,ian,iang,iao,ie,ii,in,ing,iong,iu,ix,iy,iz,j,k,l,m,n,o,ong,oo,ou,p,q,r,s,sh,t,u,ua,uai,uan,uang,ueng,ui,un,uo,uu,v,van,ve,vn,vv,x,z,zh,66類。
S12、訓練音素svm分類器S121、對於標定的音素,採用此音素的真實視窗大小做前後隨機滑窗,把與真實的視窗之間的交集大於80%的滑動後的視窗作為與此音素類別的正樣本;S122、特徵提取,提取梅爾頻率倒譜係數特徵,將所有的樣本歸一化到1500維,假設幀長為25毫秒,步長為10毫秒,因此每個幀長內就會得到一個39維的特徵向量,這樣得到39x8的二維mfcc特徵矩陣,將此矩陣轉換為一個一維特徵向量,長度為312。
S123、訓練svm,採用一對多的方式訓練一個線性分類器,即66個二分類器。訓練方式為,訓練某一類音素的二分類器,將此音素作為正樣本,其它所有65類音素作為負樣本。S2、識別階段S20、獲取數據採集所需識別的10個說話人的訓練語音數據S21、音素檢測對10人的所有數據採用如下S211-S216步驟做音素檢測。S211、語音數據重採樣,語音數據重採樣的目的是為了能檢測到不同長度的音素。數據重採樣的方法為:設定5個採樣尺度係數,分別為1.4,1.2,1.0,0.8,0.6,對大於1的係數採用上採樣,對於小1的係數採用下採樣,這樣一條語音數據便可以得到5條語音數據。S212、特徵提取,方法為:對5條語音數據提取梅爾頻率倒譜係數特徵,同時保存特徵中每一幀特徵對應在語音數據上的起始位置和終止位置坐標。S213、語音特徵滑窗處理,方法為:設定一個固定視窗大小為8和一個固定的步長為2,對S212中語音特徵做滑窗,並記錄每個視窗的起始幀和終止幀的位置信息。
S214、音素分類,方法為:採用svm分類器對每一個滑窗進行分類,給出每一類的得分,即每個視窗有66個等分。S215、音素位置映射,方法為:首先計算S213每個視窗中的起始幀和終止幀對應於S212中的語音數據起始位置和終止位置,然後將視窗的起始幀對應的起始位置和終止幀對應的終止位置作為此視窗在對應的語音數據上對應的位置,最後將此視窗的起始位置和終止位置分別除以對應的S211中的採樣尺度係數,就可以得到在原始數據上面的位置信息。S216、音素去重,方法為:設定一個得分閾值為0.8和IOU閾值0.3,採用非極大抑制(NMS)方法濾掉得分低、位置重複的音素,得到最終的檢測結果,即音素的類別和對應的位置信息。
S22、音素身份鑑別S221、假如一條語音數據裡面有20個音素,分別計算這20個音素的mfcc特徵;S222、將20個音素的特徵分別和註冊庫裡面的所有人的這個20音素分別計算S222、將20個音素的特徵分別和註冊庫裡面的所有人的這個20音素分別計算距離,採用動態時間歸整(DTW),每個音素得到10個距離,將每個音素的10個距離中最小值所對應的那個人為此音素的身份類別。
S223、採用投票的方式決定這個這條語音的身份歸屬,如這20個音素中有8個音素屬於說話人A,有5個音素屬於說話人B,有4個音素屬於說話人C,有2個音素屬於說話人D,有1個音素屬於說話人E,則這條語音的就屬於說話人A。

榮譽表彰

2021年11月,《實時聲紋辨識系統與方法》獲得2020年度四川專利獎二等獎。

相關詞條

熱門詞條

聯絡我們