聲音檢索型業務

聲音檢索型業務的概念

聲音檢索型業務（sound retrieval service）是指按需求(由用戶啟動)檢索音樂節目和其他音頻信息的一種業務。

多媒體檢索技術是把文字、聲音、圖像（形）等多種信息的傳播載體通過計算機進行數位化加工處理的一種綜合技術。在現階段，多媒體檢索業務按檢索內容可分為三類：圖像檢索、視頻檢索及聲音檢索。

基於內容的聲音檢索包括用序號查找一般聲音和以匹配方式檢索給定樣值的聲音。提出基於內容的聲音檢索的常用方法有：特徵描述法，其中又包括自然語言描述法與聲音解釋法；內容檢索法，其中又包括賦值檢索，示例匹配檢索，瀏覽檢索、語言識別與合成方式的檢索。

以前的許多研究工作涉及到語音信號的處理，如語音識別。機器容易自動識別孤立的字詞，如用在專用的聽寫和電話套用方面，而對連續的語音識別則較困難，錯誤較多，但目前在這方面已經取得了突破性的進展，同時還研究了辨別說話人的技術。這些研究成果將為音頻信息的檢索提供很大幫助。

作為一種信息載體，音頻可以分為三種類型。

波形聲音，對模擬聲音數位化而得到的數字音頻信號。它可以代表語音、音樂、自然界和合成的聲響。

語音，具有字詞、語法等語素，是一種高度抽象的概念交流媒體。語音經過識別可以轉換為文本。文本是語音的一種腳本形式。

音樂，具有節奏、旋律或和聲等要素，是人聲或/和樂器音響等配合所構成的一種聲音。音樂可以用樂譜來表示。

聲音檢索型業務的工作原理

不同的類型將具有不同的內在內容。但從整體看，音頻內容分為三個級別：最低層的物理樣本級、中間層的聲學特徵級和最高層的語義級。從低級到高級，其內容逐級抽象，內容的表示逐級概括。在物理樣本級，音頻內容呈現的是流媒體形式，用戶可以通過時間刻度，檢索或調用音頻的樣本數據。如現在常見的音頻錄放程式接口。中間層是聲學特徵級。聲學特徵是從音頻數據中自動抽取的。一些聽覺特徵表達用戶對音頻的感知，可以直接用於檢索；一些特徵用於語音的識別或檢測，支持更高層的內容表示。最高層是語義級，是音頻內容、音頻對象的概念級描述。具體來說，在這個級別上，音頻的內容是語音識別、檢測、辨別的結果，音樂旋律和敘事的說明，以及音頻對象和概念的描述。後兩層是基於內容的音頻檢索技術。在這兩個層次上，用戶可以提交概念查詢或按照聽覺感知來查詢。音頻的聽覺特性決定其查詢方式不同於常規的信息檢索系統。基於內容的查詢是一種相似查詢，它實際上是檢索出與用戶指定的要求非常相似的所有聲音。查詢中可以指定返回的聲音數或相似度的大小。另外，可以強調或關閉（忽略）某些特徵成分，甚至可以施加邏輯“非”（或模糊的Less匹配關係）來指定檢索條件，檢索那些不具有或少有某種特徵成分（如指定沒有“尖銳”或少有“尖銳”）的聲音。另外，還可以對給定的一組聲音，按照聲學特徵進行排序，如按聲音的嘈雜程度排序等。

中文名稱	聲音檢索型業務
英文名稱	sound retrieval service
定　　義	按需求(由用戶啟動)檢索音樂節目和其他音頻信息的一種業務。
套用學科	通信科技（一級學科），服務與套用（二級學科）

聲音檢索型業務

基本介紹

聲音檢索型業務的概念

聲音檢索型業務的工作原理

相關詞條

熱門詞條