自適應地檢測輸入音頻信號中的話音活動的方法和設備:專利背景,發明內容,附圖說明,技

《自適應地檢測輸入音頻信號中的話音活動的方法和設備》是華為技術有限公司於2010年12月24日申請的發明專利，該專利申請號為2010800300275，公布號為CN102959625A，公布日為2013年3月6日，發明人是王喆。

《自適應地檢測輸入音頻信號中的話音活動的方法和設備》提供一種用於自適應地檢測由幀組成的輸入音頻信號中的話音活動的方法和設備，包括以下步驟：至少基於所述所接收的輸入音頻信號的輸入幀而確定所述輸入信號的噪聲特性（nc）；導出適於所述輸入音頻信號的所述噪聲特性的或根據所述噪聲特性而選擇的VAD參數（vp）；以及將所述所導出的VAD參數與閾值進行比較，以提供話音活動檢測決策。

2021年6月24日，《自適應地檢測輸入音頻信號中的話音活動的方法和設備》獲得第二十二屆中國專利優秀獎。

（概述圖為《自適應地檢測輸入音頻信號中的話音活動的方法和設備》摘要附圖）

基本介紹

中文名：自適應地檢測輸入音頻信號中的話音活動的方法和設備
申請人：華為技術有限公司
發明人：王喆
申請號：2010800300275
申請日：2010年12月24日
公布號：CN102959625A
公布日：2013年3月6日
地址：廣東省深圳市龍崗區坂田華為總部辦公樓
Int. Cl.：G10L25/78
類別：發明專利

專利背景,發明內容,附圖說明,技術領域,權利要求,實施方式,專利榮譽,

專利背景

話音活動檢測（VAD）一般來說是一種供檢測信號中的話音活動的技術。話音活動檢測器廣泛用於電信行業中。話音活動檢測器的功能是在通信信道中檢測例如語音或音樂等有源信號的有無。話音活動檢測器可套用於通信網路內，以使所述網路可在不存在有源信號的周期中壓縮傳輸頻寬，或者根據指示是否存在有源信號的話音活動檢測決策執行其它處理。話音活動檢測器可將從輸入信號中提取的特徵參數或特徵參數集與對應的閾值進行比較，並基於比較結果來確定所述輸入是否包括有源信號。話音活動檢測器的性能在很大程度上取決於所使用的特徵參數的選擇。許多特徵參數被提出套用於話音活動檢測，例如基於能量的參數、基於譜包絡的參數、基於熵的參數或基於較高階統計的參數。一般來說，基於能量的參數提供良好的話音活動檢測性能。2010年12月前作為一種基於能量的參數的基於子帶SNR的參數已廣泛用於電信行業中。在基於子帶SNR的話音活動檢測器中，檢測用於輸入幀的每一子頻帶的SNR，並添加所有子帶的SNR以提供分段SNR。此分段SNR參數SSNR可與閾值進行比較，以作出話音活動檢測決策VADD。所使用的閾值通常為變數，其根據輸入信號的長期SNR或背景噪聲的電平而自適應。

在ITU-T規範G.720.1中，通過套用非線性處理而改進常規SSNR參數，從而獲得經修改的SSNR。還將計算出的經修改的分段SNR與閾值進行比較，所述閾值是從根據輸入信號的長期SNR、背景噪聲變化以及話音活動檢測操作點的閾值表而確定的，其中VAD操作點定義有源檢測與無源檢測之間的VAD決策的權衡，舉例來說，質量優先的操作點將使VAD支持有源信號的決策，且反之亦然。

儘管由G.720.1所使用的經修改的分段SNR參數改進了話音活動檢測的性能，但不穩定和低SNR背景環境中的VAD性能仍需要改進。常規話音活動檢測器經設計以平衡其在各種背景噪聲條件下的性能。因此，常規話音活動檢測器在特定條件下尤其是在不穩定和低SNR背景環境中的性能不夠理想。因此，《自適應地檢測輸入音頻信號中的話音活動的方法和設備》的目的是提供一種具有高VAD性能的用於檢測輸入音頻信號中的話音活動的方法和設備。

發明內容

根據第一，《自適應地檢測輸入音頻信號中的話音活動的方法和設備》提供一種用於自適應地檢測由幀組成的輸入音頻信號中的話音活動的方法，所述方法包括以下步驟：（a）至少基於所接收的所接收的輸入音頻信號的輸入幀確定所述輸入信號的噪聲特性，（e）確定適於輸入音頻信號的所述噪聲特性的或根據所述噪聲特性而選擇的VAD參數（vp）；以及（f）比較所獲取的VAD參數及閾值進行，以提供話音活動檢測決策。

第一實施方案形式可將基於能量的參數、基於譜包絡的參數、基於熵的參數或基於較高階統計的參數用作VAD參數。

在《自適應地檢測輸入音頻信號中的話音活動的方法和設備》的第一可實施方案中，該發明提供一種用於自適應性地檢測由幀組成的輸入音頻信號中的話音活動的方法，所述方法包括以下步驟：（a）所接收的輸入音頻信號的輸入幀至少基於所接收的輸入音頻信號的輸入幀而確定所述輸入信號的噪聲特性，（b）將所接收的所述音頻信號的輸入幀分成若干個子帶，（c）獲取所述輸入幀的每一子帶的SNR，（d）基於每一子帶的所述相應子帶的SNR而使用自適應函式來計運算元帶特定參數，其中，所述自適應函式中的至少一個參數是根據所述噪音特性所選取的，（e）通過添加子帶特定參數而獲取作為所述VAD參數的經修改的分段SNR；以及（f）將所獲取的經修改的分段SNR與閾值進行比較，以提供VAD決策。

根據《自適應地檢測輸入音頻信號中的話音活動的方法和設備》的第一實施方案，該發明提供效率更高且質量更好的VAD。VAD的效率是檢測噪聲特性（例如，背景噪聲）的能力，而VAD的質量與檢測有源信號（例如，輸入音頻信號中的語音或音樂）的能力有關。

在《自適應地檢測輸入音頻信號中的話音活動的方法和設備》的第一可實施方案中，所述所確定輸入音頻信號的噪聲特性由所述輸入音頻信號的長期SNR形成。

在《自適應地檢測輸入音頻信號中的話音活動的方法和設備》的第一另一可實施方案中，所述所確定輸入音頻信號的噪聲特性由所述輸入音頻信號的背景噪聲變化形成。

在《自適應地檢測輸入音頻信號中的話音活動的方法和設備》的第一又一可實施方案中，所述所確定輸入音頻信號的噪聲特性由所述輸入音頻信號的長期SNR和背景噪聲變化的組合形成。

在《自適應地檢測輸入音頻信號中的話音活動的方法和設備》的第一實施方案中，用於計運算元帶特定參數的自適應函式由非線性函式形成。

在根據《自適應地檢測輸入音頻信號中的話音活動的方法和設備》的第一用於自適應地檢測輸入音頻信號中的話音活動的方法的一可實施方案中，通過獲取每一子帶的信號能量（例如，輸入幀的每一子帶的信號能量）來獲取輸入幀的每一子帶的SNR。

在根據《自適應地檢測輸入音頻信號中的話音活動的方法和設備》的第一用於自適應地檢測輸入音頻信號中的話音活動的方法的另一可實施方案中，通過估算每一子帶的背景噪聲能量來獲取所述輸入幀的每一子帶的SNR。

在根據《自適應地檢測輸入音頻信號中的話音活動的方法和設備》的第一用於自適應地檢測輸入音頻信號中的話音活動的方法的另一可實施方案中，通過根據相應子帶的信號能量和背景噪聲能量來計算每一子帶的SNR來獲取所述輸入幀的每一子帶的SNR。

在根據《自適應地檢測輸入音頻信號中的話音活動的方法和設備》的第一用於自適應地檢測輸入音頻信號中的話音活動的方法的另一可實施方案中，所述輸入幀的每一子帶的信號能量為平滑信號能量，所述平滑信號能量形成所述輸入幀與至少一個先前幀之間的加權平均值。

在根據《自適應地檢測輸入音頻信號中的話音活動的方法和設備》的第一用於自適應地檢測輸入音頻信號中的話音活動的方法的另一可實施方案中，通過如下所示添加子帶特定參數來計算所述經修改的SSNR：

，其中N為所述輸入幀被分成的子頻帶的數目，其中sbsp（i）為子帶特定參數，子帶特定參數是使用自適應函式基於每一子帶的子帶SNR計算出的。

在根據《自適應地檢測輸入音頻信號中的話音活動的方法和設備》的第一用於自適應地檢測輸入音頻信號中的話音活動的方法的一可實施方案中，所述修改的分段SNR的計算如下所示：

，其中snr（i）為輸入幀的第i個子帶的SNR，N為所述輸入幀被分成的子頻帶的數目，

為用以計運算元帶特定參數sbsp（i）的自適應函式（AF），且α、β為所述自適應函式（AF）的兩個可配置變數。

在根據《自適應地檢測輸入音頻信號中的話音活動的方法和設備》的第一用於自適應地檢測輸入音頻信號中的話音活動的方法的一可實施方案中，自適應函式（AF）的第一變數α如下所示取決於輸入音頻信號的長期SNR（lsnr）：

，其中g為線性或非線性函式，且其中所述自適應函式（AF）的第二變數β取決於長期SNR（lsnr）和φ：

，其中h為非線性函式，且

。

在根據《自適應地檢測輸入音頻信號中的話音活動的方法和設備》的第一用於自適應地檢測輸入音頻信號中的話音活動的方法的另一實施方案中，通過以下公式計算自適應函式（AF）的第一變數α：

，其中a（i）、b（i）為取決於子帶索引i的實數，且通過以下公式計算自適應函式（AF）的第二變數β：

，其中β₁＜β₂＜β₃以及β₄和d以及e₁＜e₂為整數或浮點數，且其中lsnr為輸入音頻信號的長期SNR。

在根據《自適應地檢測輸入音頻信號中的話音活動的方法和設備》的第一用於自適應地檢測輸入音頻信號中的話音活動的方法的一可實施方案中，將所獲取的經修改的分段SNR（mssnr）與閾值（thr）進行比較，所述閾值（thr）被設定為：

，其中k₁＞k₂＞k₃以及e₁＜e₂為整數或浮點數，其中生成話音活動檢測決策（VADD）通過下述方式生成：

，其中VADD＝1表示存在話音活動的主動幀，且VADD＝0表示不存在話音活動的被動幀。

在根據《自適應地檢測輸入音頻信號中的話音活動的方法和設備》的第一用於自適應地檢測話音活動輸入音頻信號的方法的一可實施方案中，通過以下公式計算自適應函式（AF）的第一變數α：

，其中a（i）、b（i）為取決於子帶索引i的實數，且c（ε）為取決於估算處得所述輸入音頻信號的所述背景噪聲的波動的實數，且其中通過以下公式計算所述自適應函式（AF）的第二變數β：

，其中

，且ε為所述估算出的背景噪聲的波動，且d和e₁＜e₂以及p為整數或浮點數。

，其中q₁、q₂、q₃以及r₁、r₂、r₃以及e₁＜e₂以及v₁、v₂、v₃以及w₁、w₂、w₃為整數或浮點數，其中如下所示生成所述話音活動檢測決策（VADD）：

，其中VADD＝1表示存在話音活動的主動幀，且VADD＝0表示不存在話音活動的被動幀。

根據第二實施方案，《自適應地檢測輸入音頻信號中的話音活動的方法和設備》進一步提供一種用於檢測由幀組成的輸入音頻信號中的話音活動的VAD設備，其中所述VAD設備包括：基於SNR的VAD參數計算單元，其基於每一子帶的所述相應子帶SNR（snr）而使用自適應函式（AF）來計算所套用的輸入幀的每一子帶的SNR（snr）和子帶特定參數（sbsp），並通過添加子帶的特定參數而獲取經修改的分段SNR（mssnr）；以及VAD決策生成單元，其通過將所述經修改的分段SNR（mssnr）與閾值進行比較而生成VAD決策（VADD）。

在根據《自適應地檢測輸入音頻信號中的話音活動的方法和設備》的第二的VAD設備的一可實施方案中，所述設備包括噪聲特性確定單元，其所接收的輸入音頻信號的輸入幀至少基於所接收的輸入音頻信號的輸入幀確定輸入信號的噪聲特性（nc）。

在根據《自適應地檢測輸入音頻信號中的話音活動的方法和設備》的第二的VAD設備的一可實施方案中，噪聲特性確定單元包括長期SNR估算單元，所述長期SNR估算單元計算所述輸入音頻信號的長期SNR。

在根據《自適應地檢測輸入音頻信號中的話音活動的方法和設備》的第二的VAD設備的另一可實施方案中，噪聲特性確定單元包括背景噪聲變化估算單元，所述背景噪聲變化估算單元計算所述輸入音頻信號的背景噪聲的穩定性或波動。

在根據《自適應地檢測輸入音頻信號中的話音活動的方法和設備》的第二的VAD設備的另一可實施方案中，噪聲特性確定單元包括長期SNR估算單元和背景噪聲變化估算單元，所述長期SNR估算單元計算所述輸入音頻信號的長期SNR，所述背景噪聲變化估算單元計算所述輸入音頻信號的背景噪聲的穩定性或波動。

在根據《自適應地檢測輸入音頻信號中的話音活動的方法和設備》的第二的VAD設備的另一可實施方案中，根據由所述噪聲特性確定單元確定的至少一個噪聲特性（nc）來選擇自適應函式（AF）。

根據《自適應地檢測輸入音頻信號中的話音活動的方法和設備》的第三實施方案，該發明進一步提供一種音頻信號處理裝置，其中所述音頻信號處理裝置包括音頻信號處理單元，所述音頻信號處理單元用於根據由該發明的第二的VAD設備提供的VAD決策（VADD）來處理音頻輸入信號。

附圖說明

圖1展示用於說明根據《自適應地檢測輸入音頻信號中的話音活動的方法和設備》的第一用於自適應地檢測輸入音頻信號中的話音活動的方法的可實施方案的流程圖；

圖2展示根據《自適應地檢測輸入音頻信號中的話音活動的方法和設備》的第二的用於檢測輸入音頻信號中的話音活動的VAD設備的框圖；

圖3展示根據《自適應地檢測輸入音頻信號中的話音活動的方法和設備》的第三音頻信號處理裝置的框圖。

附圖

技術領域

《自適應地檢測輸入音頻信號中的話音活動的方法和設備》涉及一種用於自適應地檢測由幀組成的輸入音頻信號中的話音活動的方法和設備，尤其涉及一種使用經非線性處理的子帶分段信噪比參數的話音活動檢測方法和設備。

權利要求

1.一種用於自適應地檢測由幀組成的輸入音頻信號中的話音活動的方法，其特徵在於:所述方法包括以下步驟：（a）至少基於所述輸入音頻信號的輸入幀而確定所述輸入音頻信號的噪聲特性；（b）將所接收的所述音頻信號的輸入幀分成若干個子帶；（c）獲取所述輸入幀的每一子帶的信噪比；（d）基於每一子帶的對應子帶的信噪比使用自適應函式來計運算元帶特定參數，其中，根據所述輸入音頻信號的所述噪聲特性來選擇所述自適應函式的至少一個參數；以及（e）通過添加所述計算出的子帶特定參數獲取作為VAD參數的經修改的分段信噪比；（f）比較所獲取的VAD參數及閾值，以提供話音活動檢測決策。

2.根據權利要求1所述的方法，其特徵在於：所述輸入音頻信號的所述噪聲特性為長期信噪比和/或背景噪聲變化。

3.根據權利要求1所述的方法，其特徵在於：其中所述自適應函式為非線性函式。

4.根據權利要求1或3所述的方法，其特徵在於：通過以下步驟來獲取所述輸入幀的每一子帶的所述信噪比：獲取每一子帶的信號能量，估算每一子帶的背景噪聲能量，以及根據相應子帶的所述信號能量和所述背景噪聲能量來計算每一子帶的所述信噪比。

5.根據權利要求4所述的方法，其特徵在於：其中所述輸入幀的每一子帶的所述信號能量為平滑信號能量，所述平滑信號能量形成所述輸入幀與至少一個先前幀之間的加權平均值。

6.根據權利要求1所述的方法，其特徵在於：通過添加子帶特定參數來計算所述經修改的分段信噪比具體如下：

，其中N為所述輸入幀被分成的子頻帶的數目，其中sbsp（i）為基於相應子帶的所述信噪比而使用自適應函式計算出的子帶特定參數。

7.根據權利要求6所述的方法，其特徵在於：通過如下所示的方式來計算所述經修改的分段信噪比：

，其中snr（i）為所述輸入幀的第i個子帶的信噪比，N為所述輸入幀被分成的子頻帶的所述數目，

為用以計算所述子帶特定參數的所述自適應函式，且α、β為所述自適應函式的兩個可配置變數。

8.根據權利要求7所述的方法，其特徵在於：其中所述自適應函式的第一變數α如下所示取決於所述輸入音頻信號的長期信噪比：

，其中g為線性或非線性函式，lsnr為所述輸入音頻信號的長期信噪比，且其中所述自適應函式的第二變數β取決於所述長期信噪比和φ：

，其中h為非線性函式，且

。

9.根據權利要求8所述的方法，其特徵在於：其中通過以下公式計算所述自適應函式的所述第一變數α：

，其中a（i）、b（i）為取決於子帶索引i的實數，且通過以下公式計算所述自適應函式的所述第二變數β：

，其中β₁、β₂、β₃、β₄、d、e₁和e₂為整數或浮點數，且β₁＜β₂＜β₃，e₁＜e₂，所述lsnr為所述長期信噪比。

10.根據權利要求9所述的方法，其特徵在於：其中將所述所獲取的經修改的分段信噪比與閾值進行比較，所述閾值被設定為：

，其中k₁、k₂、k₃、e₁和e₂為整數或浮點數，且k₁＞k₂＞k₃，e₁＜e₂，其中如下所示方式生成所述話音活動檢測決策VADD：

，其中VADD＝1表示存在話音活動的主動幀，且VADD＝0表示不存在話音活動的被動幀。

11.根據權利要求8所述的方法，其特徵在於：其中通過以下公式計算所述自適應函式的所述第一變數α，

，其中a（i）、b（i）為取決於子帶索引i的實數，且c（ε）為取決於所述輸入音頻信號的背景噪聲的估算波動的實數，且其中通過以下公式計算所述自適應函式的所述第二變數β：

，其中

，且ε為所述背景噪聲的所述估算波動，且d、e₁、e₂和p為整數或浮點數，且e₁＜e₂，β₁＝3、β₂＝4、β₃＝7、β₄＝10、β₅＝8、β₆＝15、β₇＝15。

12.根據權利要求11所述的方法，其特徵在於：其中將所述所獲取的經修改的分段信噪比與閾值進行比較，所述閾值被設定為：

，其中q₁、q₂、q₃、r₁、r₂、r₃、e₁、e₂、v₁、v₂、v₃、W₁、W₂和W₃為整數或浮點數，且e₁＜e₂；其中如下所示生成所述話音活動檢測決策VADD：

，其中VADD＝1表示存在話音活動的主動幀，且VADD＝0表示不存在話音活動的被動幀。

13.一種用於檢測由幀組成的輸入音頻信號中的話音活動的話音活動檢測設備，其特徵在於：所述話音活動檢測設備包括：（a）基於信噪比的VAD參數計算單元，其基於每一子帶的相應信噪比而使用自適應函式來計算所套用的輸入幀的每一子帶的所述信噪比和子帶特定參數，並通過添加所述子帶特定參數而導出經修改的分段信噪比；所述設備包括噪聲特性確定單元，所述噪聲特性確定單元至少基於所述輸入音頻信號的輸入幀而確定所述輸入音頻信號的噪聲特性，所述自適應函式是根據由所述噪聲特性確定單元確定的至少一個噪聲特性而選擇的；以及（b）話音活動檢測決策生成單元，其通過將所述經修改的分段信噪比與閾值進行比較而生成話音活動檢測決策。

14.根據權利要求13所述的話音活動檢測設備，其特徵在於：所述噪聲特性確定單元包括長期信噪比估算單元，所述長期信噪比估算單元計算所述輸入音頻信號的長期信噪比。

15.根據權利要求13所述的話音活動檢測設備，其特徵在於：所述噪聲特性確定單元包括背景噪聲變化估算單元，所述背景噪聲變化估算單元計算所述輸入音頻信號的所述背景噪聲的穩定性或波動。

16.一種音頻信號處理裝置，其特徵在於，所述音頻信號處理裝置包括音頻信號處理單元，所述音頻信號處理單元包括根據前述權利要求13到15中任一權利要求所述的話音活動檢測設備，並根據根據所述的話音活動檢測設備所提供的話音活動檢測決策來處理音頻輸入信號。

實施方式

圖1展示根據《自適應地檢測輸入音頻信號中的話音活動的方法和設備》的第一用於自適應地檢測輸入音頻信號中的話音活動的方法的可實施方案的流程圖。在該發明的第一示範性實施方案的第一步驟S1中，所接收的輸入音頻信號的輸入幀至少基於所接收的輸入音頻信號的輸入幀確定輸入音頻信號的噪聲特性nc。所述輸入音頻信號包括信號幀。在一可實施方案中，輸入信號被分段成具有預定長度（例如20ms）的幀，且被逐幀輸入。在其它實施方案中，輸入幀的長度可變化。步驟S1中所確定的輸入音頻信號的噪聲特性nc可為由長期SNR估算單元計算出的長期SNR lsnr。在另一可實施方案中，在步驟S1中所確定的噪聲特性nc由背景噪聲變化估算單元計算出的背景噪聲變化形成，所述背景噪聲變化估算單元計算輸入音頻信號的背景噪聲bn的穩定性或波動ε。在步驟S1中所確定的噪聲特性nc也可能即包含長期SNR lsnr也包括背景噪聲變化。

在另一步驟S2中，所接收的輸入音頻信號的輸入幀被分成若干個子頻帶。

在另一步驟S3中，基於每一子帶的子帶SNR而使用自適應函式AF來計運算元帶特定參數sbsp。在一可實施方案中，通過快速傅立葉變換（FFT）為每一輸入幀獲取功率譜，且所獲取的功率譜被分成具有非線性寬度的預定數目的子帶。計算每一子帶的能量，其中在一可實施方案中，輸入幀的每一子帶的能量可由平滑能量形成，所述平滑能量是由輸入幀與至少一個先前幀之間的同一子帶的能量的加權平均值形成的。在《自適應地檢測輸入音頻信號中的話音活動的方法和設備》的第一可實施方案中，可將子帶SNR（snr）作為子頻帶的經修改的對數SNR而進行計算：

，其中E（i）為輸入幀的第i個子帶的能量，且E_n（i）為背景噪聲估算值（background noise estimate）的第i個子帶的能量。可由背景噪聲估算單元計算出背景噪聲估算值，其中通過對所檢測的背景噪聲幀中每一子帶的能量求移動平均值以計算背景噪聲估算值的每一子帶的能量。這可表達為：

，其中E（i）為經檢測後做為背景噪聲的幀的第i個子帶的能量，λ為通常處於0.9到0.99範圍內的“遺忘因子”。

在步驟S3中已獲取所述輸入幀的每一子帶的SNR（snr）之後，在步驟S4中基於相應子帶的相應的SNR（snr）而使用自適應函式（AF）來計運算元帶特定參數（sbsp）。在用於自適應地檢測輸入音頻信號中的話音活動的方法的一可實施方案中，根據所確定輸入音頻信號的噪聲特性而選擇自適應函式（AF）的至少一個參數。在步驟S1中所確定的噪聲特性nc可包括輸入音頻信號的長期SNR和/或背景噪聲變化。自適應函式AF為非線性函式。

在根據《自適應地檢測輸入音頻信號中的話音活動的方法和設備》的第一用於自適應地檢測輸入音頻信號中的話音活動的方法的一可實施方案中，在步驟S5中，通過如下所示的添加子帶的特定參數（sbsp）而獲取經修改的分段SNR（mssnr）：

，其中N為由所述輸入幀分成的子頻帶的數目，且其中sbsp（i）為基於每一子帶的子帶SNR而使用自適應函式（AF）計算出的子帶特定參數。

在《自適應地檢測輸入音頻信號中的話音活動的方法和設備》的第一可實施方案中，所述經修改的分段SNR（mssnr）的計算如下：

，其中snr（i）為輸入幀的第i個子帶的SNR，N為所述輸入幀被分成的子頻帶的數目，且：

為用以計運算元帶特定參數sbsp（i）的自適應函式，其中α、β為自適應函式（AF）的兩個可配置變數。

在《自適應地檢測輸入音頻信號中的話音活動的方法和設備》的第一可實施方案中，自適應函式（AF）的第一變數α如下所示取決於輸入音頻信號的長期SNR（lsnr）：

，其中g為線性或非線性函式，且其中自適應函式（AF）的第二變數β取決於長期SNR（lsnr）和值φ：

，其中h為非線性函式，且

。

在根據《自適應地檢測輸入音頻信號中的話音活動的方法和設備》的第一可實施方案中，通過以下公式計算自適應函式（AF）的第一變數α：

，其中a（i）、b（i）為取決於子帶索引i的實數，且通過以下公式計算自適應函式（AF）的第二變數β：

，其中β₁＜β₂＜β₃以及β₄和d以及e₁＜e₂為整數或浮點數，且其中lsnr為輸入音頻信號的長期SNR。

在一具體可實施方案中，β₁＝4、β₂＝10、β₃＝15且β₄＝9。在此具體實施方案中，將d設定為1，且e₁＝8且e₂＝18。

在步驟S5中，通過添加子帶的特定參數（sbsp）而獲取經修改的分段SNR（msnr）。在用於自適應地檢測如圖1中所示的輸入音頻信號中的話音活動的方法的實施方案的另一步驟S6中，將所獲取的經修改的分段SNR（mssnr）與閾值thr進行比較，以提供VAD決策（VADD）。

在一可實施方案中，將所獲取的經修改的分段SNR（mssnr）與閾值thr進行比較，所述閾值thr被設定為：

，其中k₁＞k₂＞k₃以及e₁＜e₂為整數或浮點數，且其中如下所示生成VAD決策（VADD）：

，其中VADD＝1表示存在話音活動的主動幀，且VADD＝0表示不存在話音活動的被動幀。

在一可能的具體實施方案中，k₁＝135、k₂＝35、k₃＝10且e₁被設定為8而e₂被設定為18。

在用於自適應地檢測輸入音頻信號中的話音活動的方法的另一可實施方案中，通過以下公式計算自適應函式（AF）的第一變數α：

，其中a（i）、b（i）為取決於子帶索引i的實數，且c（ε）為取決於輸入音頻信號的背景噪聲bn的估算波動的實數，且其中通過以下公式計算自適應函式（AF）的第二變數β：

，其中

，和ε估算出的背景噪聲bn的波動，d和e₁＜e₂以及p為整數或浮點數。

在特定實施方案中，如下所示設定參數：β₁＝3、β₂＝4、β₃＝7、β₄＝10、β₅＝8、β₆＝15、β₇＝15且d＝1且e₁＝8且e₂＝18且p＝40。

在根據《自適應地檢測輸入音頻信號中的話音活動的方法和設備》的第一自適應地檢測輸入音頻信號中的話音活動的方法的一實施方案中，將所獲取的經修改的分段SNR（mssnr）與閾值thr進行比較，所述閾值被設定為：

，其中q₁、q₂、q₃以及r₁、r₂、r₃以及e₁＜e₂以及v₁、v₂、v₃以及w₁、w₂、w₃為整數或浮點數。

在《自適應地檢測輸入音頻信號中的話音活動的方法和設備》的第一具體實施方案中，q₁＝20、q₂＝30、q₃＝9且r₁＝30、r₂＝10且r₃＝2。另外，v₁＝18、v₂＝8且v₃＝5且w₁＝8、w₂＝10且w₃＝3。另外，參數e₁、e₂經設定為e₁＝8且e₂＝18。

因此，在一可能的實施例中，不僅執行了背景噪聲估算和長期SNR估算，而且還另外執行了背景噪聲變化估算，以確定輸入音頻信號中背景噪聲的背景噪聲波動ε。

自適應函式（AF）的兩個因子α、β調整經修改的分段SNR參數的辨別能力的權衡。不同的權衡表示所述檢測更有利於對所接收的幀的主動檢測或非主動檢測。一般來說，輸入音頻信號的長期SNR（lsnr）越高，藉助於調整自適應函式（AF）的對應的係數α、β而針對主動檢測來調整經修改的分段SNR（mssnr）就越有利。

在步驟S6中執行的VAD決策可進一步經歷硬釋放延遲（hard hang-over）程式。硬釋放延遲程式迫使針對若干個幀的VAD決策在步驟S6中所獲取的VAD決策從主動變為非主動之後立刻變為主動。

在根據《自適應地檢測輸入音頻信號中的話音活動的方法和設備》的第一用於自適應地檢測輸入音頻信號中的話音活動的方法的一可實施方案中，分析輸入音頻信號的背景噪聲，並生成表示背景噪聲的穩定性或波動（由ε表示）的程度的數字。可通過（例如）以下來計算背景噪聲bn的此波動ε：

，其中ω為通常介於0.9-0.99之間的遺忘因子，且ssnr_n為在被檢測為背景幀的幀的所有子帶上的snr（i）的總和乘以（例如）10的因子。

圖2展示根據《自適應地檢測輸入音頻信號中的話音活動的方法和設備》的第二的VAD設備1的框圖。所述VAD設備1包括基於SNR的VAD參數計算單元2，所述基於SNR的VAD參數計算單元2接收施加到VAD設備1的入口3的輸入音頻信號。基於SNR的VAD參數計算單元2基於每一子帶的所述相應子帶SNR（snr）而使用自適應函式（AF）來計算輸入音頻信號的輸入幀的每一子帶的SNR以及子帶的特定參數（sbsp），並通過添加子帶的特定參數（sbsp）獲取經修改的分段SNR（mssnr）。基於SNR的VAD參數計算單元2將所獲取的經修改的分段SNR（mssnr）提供給VAD設備1的VAD決策生成單元4。所述VAD決策生成單元4通過將經修改的分段SNR（mssnr）與閾值（thr）進行比較而生成VAD決策（VADD）。VAD設備1在出口5處輸出所生成的VAD決策（VADD）。

在根據《自適應地檢測輸入音頻信號中的話音活動的方法和設備》的第二的VAD設備1的一可實施方案中，VAD檢測設備1進一步包括如圖2中所示的噪聲特性確定單元6。所述噪聲特性確定單元6至少基於提供至到VAD設備1的入口3的所接收的輸入音頻信號的輸入幀而確定輸入信號的噪聲特性（nc）。在一替代實施方案中，將噪聲特性（nc）從外部噪聲特性確定實體提供給基於SNR的VAD參數計算單元2。在根據《自適應地檢測輸入音頻信號中的話音活動的方法和設備》的第二的VAD設備1的一可實施方案中，如圖2中所示的噪聲特性確定單元6可包括長期SNR估算單元，所述長期SNR估算單元計算輸入音頻信號的長期SNR（lsnr）。在另一可實施方案中，噪聲特性確定單元6還可包括背景噪聲變化估算單元，所述背景噪聲變化估算單元計算輸入音頻信號的背景噪聲bn的穩定性或波動ε。因此，由噪聲特性確定單元6提供的噪聲特性（nc）可包括輸入音頻信號的長期SNR（lsnr）和/或輸入音頻信號的背景噪聲的穩定性或波動（ε）。在一可實施方案中，根據由所述噪聲特性確定單元6確定的至少一個噪聲特性nc來選擇由基於SNR的VAD參數計算單元2所使用的自適應函式（AF）。

圖3展示根據《自適應地檢測輸入音頻信號中的話音活動的方法和設備》的第三音頻信號處理裝置7的框圖，其包括VAD設備1，所述VAD設備1為音頻信號處理裝置7內的音頻信號處理單元8提供VAD決策（VADD）。音頻信號處理單元8根據所接收的由該發明的第一VAD設備1生成的VAD決策（VADD）來執行對輸入音頻信號的音頻信號處理。音頻信號處理單元8可基於所述VAD決策（VADD）而執行（例如）對輸入音頻信號的編碼。音頻信號處理裝置7可形成例如行動電話等語音通信裝置的一部分。另外，音頻信號處理裝置7可提供於語音通信系統內，例如，音頻會議系統、回聲信號消除系統、語音降噪系統、語音識別系統或語音編碼系統。在一可實施方案中，由VAD設備1生成的VAD決策（VADD）可控制實體（例如，蜂窩式無線電系統（例如，GSM或LTE或CDMA系統）中的實體）的不連續傳輸DTX模式。VAD設備1可通過減少共信道干擾來增強例如蜂窩式無線電系統等系統的系統容量。此外，可顯著減少蜂窩式無線電系統內的攜帶型數字裝置的功耗。

專利榮譽

2021年6月24日，《自適應地檢測輸入音頻信號中的話音活動的方法和設備》獲得第二十二屆中國專利優秀獎。

自適應地檢測輸入音頻信號中的話音活動的方法和設備

基本介紹

專利背景

發明內容

附圖說明

技術領域

權利要求

實施方式

專利榮譽

相關詞條

熱門詞條