聲音檢索型業務

聲音檢索型業務

聲音檢索型業務(sound retrieval service)是指按需求(由用戶啟動)檢索音樂節目和其他音頻信息的一種業務。

多媒體檢索技術是把文字、聲音、圖像(形)等多種信息的傳播載體通過計算機進行數位化加工處理的一種綜合技術。在現階段,多媒體檢索業務按檢索內容可分為三類:圖像檢索、視頻檢索及聲音檢索。

基於內容的聲音檢索包括用序號查找一般聲音和以匹配方式檢索給定樣值的聲音。

中文名稱聲音檢索型業務
英文名稱sound retrieval service
定  義按需求(由用戶啟動)檢索音樂節目和其他音頻信息的一種業務。
套用學科通信科技(一級學科),服務與套用(二級學科)

基本介紹

  • 中文名:聲音檢索型業務
  • 外文名:聲音檢索型業務
  • 定  義:檢索音樂節目和其他音頻信息
  • 套用學科:通信科技,服務與套用
聲音檢索型業務的概念,聲音檢索型業務的工作原理,

聲音檢索型業務的概念

聲音檢索型業務(sound retrieval service)是指按需求(由用戶啟動)檢索音樂節目和其他音頻信息的一種業務。
多媒體檢索技術是把文字、聲音、圖像(形)等多種信息的傳播載體通過計算機進行數位化加工處理的一種綜合技術。在現階段,多媒體檢索業務按檢索內容可分為三類:圖像檢索、視頻檢索及聲音檢索。
基於內容的聲音檢索包括用序號查找一般聲音和以匹配方式檢索給定樣值的聲音。提出基於內容的聲音檢索的常用方法有:特徵描述法,其中又包括自然語言描述法與聲音解釋法;內容檢索法,其中又包括賦值檢索,示例匹配檢索,瀏覽檢索、語言識別與合成方式的檢索。
以前的許多研究工作涉及到語音信號的處理,如語音識別。機器容易自動識別孤立的字詞,如用在專用的聽寫和電話套用方面,而對連續的語音識別則較困難,錯誤較多,但目前在這方面已經取得了突破性的進展,同時還研究了辨別說話人的技術。這些研究成果將為音頻信息的檢索提供很大幫助。
作為一種信息載體,音頻可以分為三種類型。
波形聲音,對模擬聲音數位化而得到的數字音頻信號。它可以代表語音、音樂、自然界和合成的聲響。
語音,具有字詞、語法等語素,是一種高度抽象的概念交流媒體。語音經過識別可以轉換為文本。文本是語音的一種腳本形式。
音樂,具有節奏、旋律或和聲等要素,是人聲或/和樂器音響等配合所構成的一種聲音。音樂可以用樂譜來表示。

聲音檢索型業務的工作原理

不同的類型將具有不同的內在內容。但從整體看,音頻內容分為三個級別:最低層的物理樣本級、中間層的聲學特徵級和最高層的語義級。從低級到高級,其內容逐級抽象,內容的表示逐級概括。在物理樣本級,音頻內容呈現的是流媒體形式,用戶可以通過時間刻度,檢索或調用音頻的樣本數據。如現在常見的音頻錄放程式接口。中間層是聲學特徵級。聲學特徵是從音頻數據中自動抽取的。一些聽覺特徵表達用戶對音頻的感知,可以直接用於檢索;一些特徵用於語音的識別或檢測,支持更高層的內容表示。最高層是語義級,是音頻內容、音頻對象的概念級描述。具體來說,在這個級別上,音頻的內容是語音識別、檢測、辨別的結果,音樂旋律和敘事的說明,以及音頻對象和概念的描述。後兩層是基於內容的音頻檢索技術。在這兩個層次上,用戶可以提交概念查詢或按照聽覺感知來查詢。音頻的聽覺特性決定其查詢方式不同於常規的信息檢索系統。基於內容的查詢是一種相似查詢,它實際上是檢索出與用戶指定的要求非常相似的所有聲音。查詢中可以指定返回的聲音數或相似度的大小。另外,可以強調或關閉(忽略)某些特徵成分,甚至可以施加邏輯“非”(或模糊的Less匹配關係)來指定檢索條件,檢索那些不具有或少有某種特徵成分(如指定沒有“尖銳”或少有“尖銳”)的聲音。另外,還可以對給定的一組聲音,按照聲學特徵進行排序,如按聲音的嘈雜程度排序等。
在查詢接口上,用戶可以採用以下形式提高查詢:
示例方法。用戶選擇一個聲音例子表達其查詢要求,查找出與該聲音在某些特徵方面相似的所有聲音。如查詢與飛機的轟鳴聲相似的所有聲音。
直喻方法。通過選擇一些聲學/感知物理特性來描述查詢要求,如亮度、音調和音量等。這種方式與可視查詢中的描繪查詢相似。
擬聲方法。發出與要查找的聲音性質相似的聲音來表達查詢要求。如用戶可以發出嗡嗡聲來查找蜜蜂或電氣嘈雜聲。
主觀特徵法。用個人的描述語言來描述聲音。這需要訓練系統理解這些描述術語的含義,如用戶可能要尋找“歡快”的聲音。
瀏覽法。這是信息發現的一種重要手段,尤其是對於音頻這種時基媒體。根據對音頻媒體的劃分可以知道,語音、音樂和其他聲響具有顯著不同的特性,因而目前的處理方法可以分為相應的三種:處理包含語音的音頻和不包含語音的音頻,後者又把音樂單獨劃分出來。換句話說,第一種是利用自動語音識別技術,後兩種是利用更一般性的音頻分析,以適合更廣泛的音頻媒體,如音樂和聲音效果,當然也包含數位化語音信號。
通常認為音頻信息檢索分為基於語音技術的檢索、音頻檢索和音樂檢索。
語音檢索示以語音為中心的檢索,採用語音識別等處理技術。基於語音技術的檢索又包括利用大辭彙語音識別技術進行檢索,這種方法是利用動語音識別(ASR)技術把語音轉換為文本,從而可以採用文本檢索方法進行檢索。雖然好的連續語音識別系統在小心地操作下可以達到90%以上的詞語正確度,但在實際套用中,如電話和新聞廣播等,識別率並不高。
基於分詞單元進行檢索:當語音識別系統處理各方面無限制主題的大範圍語音資料時,識別性能會變差,尤其當一些專業辭彙(如人名、地點)不在系統詞庫中時。一種變通的方法是利用粉刺索引單元,當執行查詢時,用戶的查詢首先被分解為子詞單元,然後將這些單元的特徵與庫中預先計算好的特徵進行匹配。
基於識別關鍵字進行檢索、基於說話人的辨認進行分割等都是音頻信息檢索的技術。
音頻檢索示以波形聲音為對象的檢索,這裡音頻可以是汽車發動機、雨聲、鳥叫聲。也可以是語音和音樂等,這些音頻都統一用聲學特徵來檢索,音頻檢索又包括聲音訓練和分類、聽覺檢索、音頻分割。
音樂檢索是以音樂的音符和旋律等音樂特性來檢索。

相關詞條

熱門詞條

聯絡我們