話音激活檢測

概述

語音是人類進行交流的重要手段，而且也是人與機器之間進行通信的重要工具。在高度發達的資訊時代，用數位化方式進行的語音傳送、識別、合成、增強等，也是整個數位化通信網路中最重要、最基本的組成部分之一。目前，數字語音處理已經在眾多領域得到了廣泛的套用，其中最重要的包括語音壓縮、語音合成、語音識別以及語音增強等。

在數字語音處理中，一個關鍵的問題就是話音激活檢測(VAD, Voice ActivityDetection），目的是檢測當前語音信號中是否包含話音信號存在，即對輸入信號進行判斷，將話音信號與各種背景噪聲信號區分出來，分別對兩種信號採用不同的處理方法。對於話音信號，可以用於語音編碼，語音識別，語音合成等;對於背景噪聲，可以提取其背景噪聲參數，在解碼端進行舒適噪聲合成(CNG，ComfortNoise Generation)，產生與背景噪聲特性相似的舒適噪聲等。話音激活檢測是數字語音信號處理的基礎環節，在許多實際套用系統中都必須首先進行語音信號檢測，使後面處理的數據為實際的有效語音信號數據，從而可以減少數據量和運算量，進而減少系統的處理時間。

套用

話音激活檢測在語音信號處理的很多方面具有用途，如語音壓縮編碼、語音識別、語音增強、語音合成等。

基本原理

話音激活檢測技術的基本原理是通過對話音編碼參數及其特徵值進行分析和計算，然後採用一定的邏輯判斷準則來確定當前語音信號中是否有語音信號存在。

基於幀的話音激活檢測算法的原理為：輸入語音經過預處理後一方面送到特徵提取模組提取特徵參數。另一方面送到門限計算模組，計算參數判決門限（一般情況下，門限電平需自適應調整），然後經過VAD判決模組經過判決比較，得到初步的VAD判決結果，再經過VAD的判決糾正，最後得到VAD的最終判決結果，即該幀信號是有話還是無話。一般情況下，糾正措施採用拖尾延遲保護方案，即有話判決幀後的N幀無話仍然應被判決為有話，以避免低能量的清音幀被判為非話音幀，這裡N一般可取3-10。

一般情況下，VAD算法基於以下假設：

話音是短時平穩信號，在一段時間（例如20-30ms）後頻譜才會變化；
在相當長的時間內，背景噪聲頻譜是平穩的，並隨著時間緩慢地變化；
語音信號電平通常高於背景噪聲電平。

在上面的假設情況下，VAD算法的門限值應該能夠自適應調整，且僅當在無話區間時才能更新，以便準確地分類輸入信號。之所以需要自適應的門限值是因為在背景噪聲電平很低的通信系統中，一個簡單的信號能量門限就可以用來檢測無話區間。但是當背景噪聲電平較高，並且不斷變化時，通過一個簡單的能量門限函式是不容易區分出帶噪話音和背景噪聲的，所以需要門限能夠根據背景電平的變化而自適應的變化。

話音激活檢測可以通過檢測信號的頻譜特徵性進行，即可以通過分析輸入信號是頻譜不斷變化的話音還是具有相對穩態頻譜回響的噪聲來檢測。此外，藉助話音的特徵參數也有助於有話、無話的判斷。通常，不同的系統需要不同的方法以滿足它們各自在檢測精度、算法複雜性、魯棒性等方面的不同要求。話音激活檢測方法大體可以分為兩大類：一是門限判別法，即提取信號的一些特徵參數，將這些特徵參數和設定的門限進行比較；二是模型匹配方法，即為噪聲和話音建立不同的模型，分別計算待測信號與噪聲和話音的匹配度。不過，如今融合多種特徵參數的VAD算法逐漸顯示出了良好的性能，上述兩類方法之間的區別也變得越來越模糊。

中文名稱	話音激活檢測
英文名稱	voice activity detection;VAD
定　　義	用於識別話音數據比特是否出現的處理過程。
套用學科	通信科技（一級學科），移動通信（二級學科）

話音激活檢測

基本介紹

概述

套用

基本原理

特徵參數提取

經典算法

門限判別類算法

模型匹配類算法

相關詞條

熱門詞條