簡介
這裡的環境聲(Environmental Sound)是指在人居環境中所接收到的各種聲音。特別地,監控系統所感興趣的多是人在緊急狀況下發出的呼叫聲,咳嗽聲,巨大的撞擊聲等能起到警告作用的異音,其識別本質上屬於孤立詞識別的範疇。環境聲監控和識別是語音識別中的分支方向,處於發展初期,還沒有可套用於非特定人的監控和識別系統得到實際套用,而隨著智慧型樓宇、大型社交活動場所的安防及重要場所的監控等方面的需求與日俱增,急需發展這方面的技術。在“十二五”安防產業發展的大趨勢下,基於中小辭彙量孤立詞識別的報警聲監控和識別系統將會在未來的幾年內取得較快發展。
用途
本系統設計以銀行、
博物館、
居室、室內停車場等室內套用場景的監控為設計背景,針對室內典型的聲音(如“著火啦”、“搶劫” 及玻璃破碎聲等),利用語音信號處理和聲目標分類識別等領域的研究成果(包括特徵提取和分類識別等),以音頻和視頻監控的 結合為套用目標,側重於報警詞識別系統的軟體設計,最終將套用於報警聲監控和自動識別硬體系統,為公安、消防等相關部門的決策提供關鍵信息。 概括而言,本系統設計可在以下安防相關領域得到直接或推廣套用:
1) 銀行、博物館等重要場所的防盜報警監控系統;
2) 智慧型樓宇安全防衛監控及訪客自動識別系統;
3) 醫院重症病人監控或遠程室內老人、兒童活動監護;
4) 背街小巷內的盜搶事件監控。 除了安防領域,該文涉及的核心技術在語音識別、說話人識別、智慧型家電、機器人等相關領域也具有一定的參考價值。
聲監控系統關鍵問題分析
通過對特定套用場景的研究,本系統設計旨在將環境聲識別的關鍵技術運用到這些場景中聲音監控中。實際場景中,干擾噪聲和混響往往是比較突出的問題,不同的場所這兩個因素的影響程度不一,如何才能使環境聲監控識別適應不同的聲環境是系統研究的重點也是難點。具體的關鍵問題:
1) 干擾噪聲下,系統自動檢出有效語音段的問題,即端點檢測問題。
2) 提取魯棒的聲音特徵的問題,要求是能夠最大程度地保留話者或者聲音內容本身的特徵而去除干擾聲和通道噪聲(如混響)帶來的影響。
3) 環境聲的匹配識別問題,在保證正確率的前提下,提高識別的效率。
4) 特定聲環境下(混響,多個聲源等)聲線索性能精度下降問題,如混響下雙耳定位性能下降,導致引導攝像頭監控效率降低。以上這些是典型的環境聲識別與監控所面臨的問題,每一個問題的解決都是極其複雜的,本系統設計只能在特定條件下做局部的改進。
1) 針對監控設備(錄音設備)帶來的噪聲干擾,該文提出了一種基於臨界帶功率譜方差的端點檢測方法,能夠有效地在含噪語音中找到語音,用於系統對環境聲的識別。
2) 提出一種智慧型音視頻聯合的監控思想,對聲源先進行定位,利用定位信息引導攝像,提高了視頻監控的視域範圍,同時進行聲音的識別。
3) 針對混響和干擾噪聲的影響,提出一種基於分類的定位方法,用於上述系統中,提高了系統的魯棒性。
套用場景設計
語音識別技術的研究主要集中在語音識別的特徵提取、模型建立、識別算法和語音信號處理(語音降噪、增強等)方面。對語音識別套用技術的研發主要集中在通信領域[5],如利用語音實現文本輸入。在其他領域如樓宇智慧型監控、語音報警等方面的套用技術開發相對較少,國內還沒有真正意義上將語音識別技術套用於這些方面的產品。該文將依託視頻監控平台,設計一套室內報警聲監控和識別系統,為其實際套用打下基礎。隨著國家經濟發展水平的不斷提高,科技水平特別是以計算機技術為代表的高科技的迅猛發展,人們對經濟舒適、高效安全的生活環境的期望值越來越高,安全意識也與日俱增。同時由於人們生活節奏的加快,工作壓力的增大,很多時候常常需要加班,家裡的一些突髮狀況而得不到有效的通報,容易造成安全隱患。現實生活中,尤其是在治安較差的區域常有此類報導:不法分子入室實施盜竊、搶劫、殺人等犯罪行為,即使被害人大聲疾呼,奮力反抗,也往往難以得到及時救助;或是晚上家裡突然著火,濃煙瀰漫,而當事人已經迷失方向,無法通過電話報警;或是獨居的孤寡老人,突然身體不適,自己無力打電話求救,等到監護人員趕到時狀況往往已經相當糟糕。這些不利的後果主要是因為無法報警或報警不及時而造成的。因此,能夠及時地發出和接收報警信息並及時達到現場,想辦法解除險情,這是生活小區安防領域急需解決的一個關鍵問題。在其他一些重要場所如博物館、銀行等,如果發生緊急事件(盜竊、搶劫)而沒有及時報警,也非常可能造成重大人身或財產的損失。當然,除了報警功能外,孤立詞語音識別的核心技術還可以套用到其他許多領域。如智慧型家電就是一種大有前途的領域,一旦技術發展成熟,人們即可實黑暗中通過語音來操控電視、電燈、空調等家用電器。上述套用場景大多屬於室內環境,具有一些的相似特點:
1) 往往背景噪聲較低、平穩或種類單一;
2) 聲源至傳聲器(安裝於監控設備)的距離通常較近;
3) 可能出現的報警語音種類有限。這些共同特性為本文後面的關鍵字選取、算法設計提供了主要依據。
功能需求設計
在前述室內套用環境中,語音識別要想發揮準確及時的自動識別和報警作用,對識別系統有一系列要求。
1) 保證在實際套用環境下具有較高的正確識別率。語音識別在噪聲環境下的識別效果的下降一直是該項技術不能大面積商用、民用的直接原因。現階段,該問題暫時還沒有較完善和統一的解決。但是,在室內環境中,對於小辭彙量的孤立詞語音識別,通過算法優選和改良,識別率完全可能達到實際套用的要求。
2) 室內環境聲監控與識別系統需要做到實時監控,及時報警。滿足實時要求的最簡單原則便是語音識別的時間要不大於語音本身的時長,而語音識別的時間長短主要由端點檢測和模板匹配算法決定。關於端點檢測和匹配算法本文將在下面的章節做詳細的論述,並且提出相應的改進算法,以提高識別正確率和識別速度。
3) 報警與監控系統不僅要及時分析處理和報警,還有必要將採集的聲音信號存儲備查。這對於數據接口設計和硬體存儲空間選擇具有明確的要求。
4) 報警與監控系統的網路化。網路化是監控系統的基本要求,只有網路化才能使不在事發現場的監控人員了解現場的情況。這還與報警聲識別系統的套用平台相關。
5) 能夠方便地對語音模板庫進行編輯和更新。如實現語音特徵模板庫的添加和刪除,這對於系統的推廣套用具有重要的價值。
系統基本結構
基於孤立詞語音識別的報警聲監控和識別系統按功能分為訓練和識別兩大階段。訓練包含預處理、特徵提取兩個模組;識別是在訓練的基礎上加一個匹配識別模組。對不同的語音識別任務來說,儘管設計和實現的細節不同,但所採用的基本技術是相似的。其中,訓練語音樣本的採集過程包含了對模擬信號的採樣、濾波、量化、編碼的過程;預處理包含預加重、加窗分幀、端點檢測。預處理模組的功能是通過高頻預加重來平滑信號頻譜,並利用窗函式把語音數據序列分成連續的信號幀。端點檢測單元主要完成確定單詞的起始幀與結束幀的檢測。特徵提取單元的功能是完成基於頻譜分析的特徵矢量計算。當端點檢測單元檢測到當前語音信號幀為起始幀時,特徵提取單元開始特徵提取計算,並完成對特徵矢量的存儲。一個完整的孤立詞語音識別系統,除了包括核心的模式識別程式,還應包括語音採集、參數分析、標準聲學模型等。根據識別結果在實際環境下實現一定的套用,還必須考慮耐環境技術、用戶輸入、輸出接口技術等。因此,語音識別技術加上各種外圍技術的組合,才能構成一個完整的可實際套用的語音識別系統。
環境噪聲監控技術的現狀
隨著現代城市的發展,噪音污染也成了環境污染的一個主要部分,而且有愈演愈烈的趨勢。在環境噪音治理的過程中,噪音監測是一個必不可少的環節,同時也是管理和控制環境噪音的關鍵。著重討論了我國噪音監控技術的現狀,並提出初步的改進策略,以期為我國環境噪音的控制起到一定的促進作用。