計算機聽覺

計算機聽覺

計算機聽覺是一個基於音頻信號處理和機器學習對數字聲音與音樂的內容進行理解和分析的學科。計算機聽覺通用技術框架包括聲音採集,預處理,聲源分離或去噪/增強,音頻事件檢測,提取或學習音頻特徵,聲音分類、聲音目標識別及定位等模組。音頻事件指一段具有特定意義的連續聲音。音頻場景是一個保持語義相關或一致性的聲音片段,通常由多個音頻事件組成。一般音頻的計算機聽覺技術在醫療衛生、安全監控、交通運輸與倉儲、製造業、農林牧漁業、水利環境、公共設施管理業、建築業、採礦業、日常生活、身份識別、軍事等領域具有眾多套用。

基本介紹

  • 中文名:計算機聽覺
  • 外文名:Computer Audition
計算機聽覺的概念,計算機聽覺通用技術框架,音頻事件檢測與音頻場景識別,音頻事件,音頻場景,基於一般音頻環境聲的計算機聽覺套用,

計算機聽覺的概念

使用計算方法對數位化聲音與音樂的內容進行理解和分析的交叉學科。面向音樂的CA也可稱為音樂信息檢索MIR,面向環境聲的CA可稱為基於一般音頻的計算機聽覺。主要基礎學科是音頻信號處理和人工智慧-機器學習。

計算機聽覺通用技術框架

一個完整的CA系統包含如下步驟:(1)採集聲音數據(2)預處理(3)音頻事件檢測或端點檢測(4)聲源分離或去噪/增強(5)提取各種時頻域音頻特徵(6)聲音分類、聲音目標識別及定位等。基於一般音頻/環境聲的CA算法設計與MIR技術高度類似,區別在於聲音的本質不同,一般需要某種特定聲音的領域知識。

音頻事件檢測與音頻場景識別

音頻事件

指一段具有特定意義的連續聲音,時間可長可短。例如笑聲、鼓掌聲、槍聲、犬吠、警笛聲等。也可稱為音頻鏡頭。音頻事件檢測,亦稱聲音事件檢測,環境聲音識別,旨在識別音頻流中事件的起止時間和類型,有時還包括其重要性。面向實際系統的音頻事件檢測需要在各種背景聲音的干擾下在連續音頻流中找到聲音事件的邊界再進行分類,比單純的分類問題要更困難。

音頻場景

是一個保持語義相關或一致性的聲音片段,通常由多個音頻事件組成。例如,一段包含槍聲、炮聲、吶喊聲、爆炸聲等聲音事件的音頻很可能對應一個戰爭場景。對於實際套用中的連續音頻流,音頻場景識別首先進行時間軸語義分割,得到音頻場景的起止時間即邊界,再進行音頻場景分類。音頻場景識別是提取音頻結構和內容語義的重要手段,是基於內容的音頻、視頻檢索和分析的基礎。場景檢測的研究,主要是基於圖像和視頻。音頻同樣具有豐富的場景信息,基於音頻既可獨立進行場景分析,也可以輔助視頻場景分析,以獲得更為準確的場景檢測和分割。音頻場景的類別並沒有固定的定義,依賴於具體套用場景。在電影等視頻中,可粗略分為語音、音樂、歌曲、環境音、帶音樂伴奏的語音等幾類。環境音還可以進行更細粒度的劃分。基於音頻分析的方法用戶容易接受,計算量也比較少。

基於一般音頻環境聲的計算機聽覺套用

計算機聽覺在數十個領域具有套用。(1)醫療衛生領域:咳嗽、打鼾、言語、喘息、呼吸等呼吸系統疾病,心臟系統疾病,其它相關疾病如嗓音疾病、胎音和胎動、藥劑吞服、血液流動、肌音。(2)公共場所監控和私密場所監控。(3)交通運輸、倉儲領域:鐵路運輸業,道路運輸業(車型及車距識別、交通事故識別、交通流量檢測、道路質量檢測),水上運輸業,航空運輸業(航空飛行器識別、航空飛行數據分析),管道運輸業,倉儲業。(4)製造業:鐵路、船舶、航空航天和其他運輸設備製造業,通用設備製造業(發動機、金屬加工機械製造、軸承齒輪和傳動部件製造、包裝專用設備製造),電氣機械和器材製造業,紡織業,黑色及有色金屬冶煉和壓延加工業,非金屬礦物製品業,汽車製造業,農副食品加工業,機器人製造。(5)農、林、牧、漁業:農業,林業,畜牧業。(6)水利、環境和公共設施管理業:水利管理業,生態保護和環境治理業。(7)建築業:土木工程建築業,房屋建築業。(8)採礦業、日常生活、身份識別、軍事等。

相關詞條

熱門詞條

聯絡我們