概述
語音是人類進行交流的重要手段,而且也是人與機器之間進行通信的重要工具。在高度發達的資訊時代,用數位化方式進行的語音
傳送、
識別、合成、增強等,也是整個數位化通信網路中最重要、最基本的組成部分之一。目前,數字語音處理已經在眾多領域得到了廣泛的套用,其中最重要的包括語音壓縮、語音合成、語音識別以及語音增強等。
在數字語音處理中,一個關鍵的問題就是話音激活檢測(VAD, Voice ActivityDetection),目的是檢測當前語音信號中是否包含話音信號存在,即對輸入信號進行判斷,將話音信號與各種背景噪聲信號區分出來,分別對兩種信號採用不同的處理方法。對於話音信號,可以用於語音編碼,語音識別,語音合成等;對於背景噪聲,可以提取其背景噪聲參數,在解碼端進行舒適噪聲合成(CNG,ComfortNoise Generation),產生與背景噪聲特性相似的舒適噪聲等。話音激活檢測是數字語音信號處理的基礎環節,在許多實際套用系統中都必須首先進行語音信號檢測,使後面處理的數據為實際的有效語音信號數據,從而可以減少數據量和運算量,進而減少系統的處理時間。
套用
話音激活檢測在語音信號處理的很多方面具有用途,如語音壓縮編碼、語音識別、語音增強、語音合成等。
基本原理
話音激活檢測技術的基本原理是通過對話音編碼參數及其特徵值進行分析和計算,然後採用一定的邏輯判斷準則來確定當前語音信號中是否有語音信號存在。
基於幀的話音激活檢測算法的原理為:輸入語音經過預處理後一方面送到特徵提取模組提取特徵參數。另一方面送到門限計算模組,計算參數判決門限(一般情況下,門限電平需自適應調整),然後經過VAD判決模組經過判決比較,得到初步的VAD判決結果,再經過VAD的判決糾正,最後得到VAD的最終判決結果,即該幀信號是有話還是無話。一般情況下,糾正措施採用拖尾延遲保護方案,即有話判決幀後的N幀無話仍然應被判決為有話,以避免低能量的清音幀被判為非話音幀,這裡N一般可取3-10。
一般情況下,VAD算法基於以下假設:
話音是短時平穩信號,在一段時間(例如20-30ms)後頻譜才會變化;
在相當長的時間內,背景噪聲頻譜是平穩的,並隨著時間緩慢地變化;
語音信號電平通常高於背景噪聲電平。
在上面的假設情況下,VAD算法的門限值應該能夠自適應調整,且僅當在無話區間時才能更新,以便準確地分類輸入信號。之所以需要自適應的門限值是因為在背景噪聲電平很低的通信系統中,一個簡單的信號能量門限就可以用來檢測無話區間。但是當背景噪聲電平較高,並且不斷變化時,通過一個簡單的能量門限函式是不容易區分出帶噪話音和背景噪聲的,所以需要門限能夠根據背景電平的變化而自適應的變化。
話音激活檢測可以通過檢測信號的頻譜特徵性進行,即可以通過分析輸入信號是頻譜不斷變化的話音還是具有相對穩態頻譜回響的噪聲來檢測。此外,藉助話音的特徵參數也有助於有話、無話的判斷。通常,不同的系統需要不同的方法以滿足它們各自在檢測精度、算法複雜性、魯棒性等方面的不同要求。話音激活檢測方法大體可以分為兩大類:一是門限判別法,即提取信號的一些特徵參數,將這些特徵參數和設定的門限進行比較;二是模型匹配方法,即為噪聲和話音建立不同的模型,分別計算待測信號與噪聲和話音的匹配度。不過,如今融合多種特徵參數的VAD算法逐漸顯示出了良好的性能,上述兩類方法之間的區別也變得越來越模糊。
特徵參數提取
一個VAD算法的好壞,很大程度上取決於話音
特徵參數的選取和計算。所謂的話音特徵參數就是指,在時域或者頻域範圍內計算得到的能夠在一定程度上區分話音和噪聲的特徵值,這個特徵值應該在話音段和非話音段表現出顯著不同的性質,尤其在信噪比較低的強噪聲環境下。
常見的用於VAD判決的話音特徵參數有信號的短時能量,信號的短時過零率,信號的自相關函式,譜平坦度,線性預測倒譜係數和美爾倒譜係數等。
經典算法
門限判別類算法
通常用於VAD的門限判別類的特徵參數主要有短時過零率、短時能量、線性預測係數、短時自相關函式等。在實際套用中,根據對算法複雜度、判決準確率要求的不同以及背景噪聲類型的不同,可以選用不同的VAD的門限判別類特徵參數。
模型匹配類算法
高斯混合模型法
基於高斯混合模型的vAD算法的基本原理是,對每幀話音信號和噪聲信號提取特徵矢量,並將這些特徵矢量劃分成若干類,假定類與類之間、類內矢量之間都是相互獨立的,那么每個類內的矢量服從同一常態分配,多個類的常態分配按一定的權值相加,就得到了話音和噪聲特徵矢量的總體分布。接下來根據訓練得到的均值,協方差和閩值等參數分別建立話音模型和噪聲模型,對每幀輸入信號根據後驗機率最大的原則確定其屬於話音還是噪聲,同時模型參數進行適當的更新。
高階統計方法
移動環境中的很多背景噪聲可以看作高斯性或者對稱分布的隨機過程,其三階以上累積量恆為零;而話音信號是非對稱的,它的三階以上累積量不為零,故可以用三階累積量來區分話音和噪聲。累積量和倒譜分別在時域和頻域將信號的自相關和功率譜的概念延伸到二階以上統計領域,相比自相關和功率譜而言,包含更多的統計信息,所以採用三階以上累積量作為判決方法,可以更好地區分話音和噪聲信號。除了上述方法,還有
隱馬爾可夫模型、
支持向量機、神經網路等多種VAD算法,模型匹配方法在噪聲環境下效果較好,但需要積累很多先驗知識,而且算法複雜度大,一般不適於實時套用。