《音頻信息檢索理論與技術》是2011年3月科學出版社出版的一本書籍,作者是韓紀慶、鄭鐵然、鄭貴濱。該書系統地介紹音頻信息檢索研究的相關理論、技術與方法,以及該學科領域的最新進展。
基本介紹
- 書名:音頻信息檢索理論與技術
- 作者:韓紀慶、鄭鐵然、鄭貴濱
- ISBN:9787030303721
- 頁數:244
- 出版社:科學出版社
- 出版時間:2011年3月
內容簡介,圖書目錄,文章節選,
內容簡介
《音頻信息檢索理論與技術》系統地介紹音頻信息檢索研究的相關理論、技術與方法,以及該學科領域的最新進展。內容包括音頻信息檢索的基本理論、表示級和語義級的音頻信息檢索技術等。在表示級的檢索中,重點介紹基於直接特徵匹配的音頻樣例檢索方法,內容涉及基於分段的實時檢索、基於索引的檢索,以及基於硬體實現的快速檢索。在語義級的檢索中,分別介紹語音文檔檢索、說話人檢索、音樂檢索等內容。針對語音文檔檢索,介紹直接利用語音識別最優候選結果的檢索、基於音節格線搜尋的檢索、基於音節倒排索引的檢索、基於後驗機率鄰接音節矩陣的檢索,以及語音文檔檢索中的容錯技術。針對說話人檢索,介紹直接利用說話人識別進行檢索的方法,以及基於說話人索引的間接檢索方法。針對音樂檢索,介紹音樂語義信息獲取方法——音樂自動標註,以及哼唱檢索、拍打檢索、基於節拍譜的檢索等方法。
《音頻信息檢索理論與技術》可作為高等院校計算機套用、信號與信息處理、通信與電子系統等專業及學科的研究生教材,也可供該領域的科研及工程技術人員參考。
圖書目錄
《音頻信息檢索理論與技術》
前言
第一部分音頻信息檢索的發展與理論基礎
第1章緒論
1.1信息檢索技術的分類及進展
1.1.1概述
1.1.2文本信息檢索
1.1.3多媒體信息檢索
1.2音頻信息檢索技術的發展
1.2.1語音文檔檢索
1.2.2說話人檢索
1.2.3音樂檢索
1.3音頻信息檢索的套用
1.4本書的構成
參考文獻
第2章音頻信息檢索的基礎
2.1人類對音頻信息的認知機理
2.1.1聽覺的生理基礎
2.1.2聽覺的感知機制
2.1.3聽覺特性
.2.2音頻信號的數字處理及特徵表示
2.2.1信號的統計特徵
2.2.2感知特徵
2.3音頻信息檢索框架及模型
2.4音頻信息檢索的評價
參考文獻
第二部分表示級的音頻檢索
第3章基於直接匹配的音頻樣例檢索方法
3.1基於分段的實時檢索方法
3.1.1片段劃分
3.1.2基於檢索窗的檢索控制
3.1.3基於分段的檢索方法
3.1.4快速分段檢索方法
3.2mpeg—1壓縮域模糊分類的檢索方法
3.2.1mpeg音頻編碼簡介
3.2.2mpeg—1壓縮域特徵選擇和提取
3.2.3基於h怦eg—1壓縮域模糊分類的檢索方法
參考文獻
第4章基於索引的音頻樣例檢索方法
4.1局部敏感哈希索引方法
4.1.1局部敏感哈希
4.1.2少穩定分布局部敏感哈希
4.1.3少穩定分布局部敏感哈希音頻索引方法
4.2基於局部敏感哈希倒排索引的檢索方法
4.2.1基於局部敏感哈希的倒排索引構造
4.2.2基於局部敏感哈希倒排索引的搜尋
4.3基於樹與鍊表混合索引的檢索方法
4.3.1模糊直方圖模型
4.3.2樹與鍊表混合索引構造
4.3.3基於樹與鍊表混合索引的搜尋
4.3.4時間複雜度分析
參考文獻
第5章基於cpu通用計算的快速音頻樣例檢索方法
5.1通用圖形處理器與統一計算設備框架
5.1.1通用圖形處理器
5.1.2統一計算設備框架
5.2檢索算法gpu加速的可行性分析
5.2.1檢索算法可移植性分析
5.2.2檢索算法計算特點分析
5.3檢索算法gpu加速的實現
5.3.1以執行緒為粒度的算法實現
5.3.2以執行緒塊為粒度的算法實現
5.3.3加速效果比較
參考文獻
第三部分語義級語音文檔檢索
第6章語音文檔檢索的預處理技術
6.1語音文檔檢索系統的組成
6.2檢索系統中的預處理技術
6.2.1連續語音識別
6.2.2關鍵字檢出
6.3語音文檔檢索的評價指標
參考文獻
第7章語音文檔檢索的索引和搜尋技術
7.1基於關鍵字檢出的檢索方法
7.2基於語音識別器最優候選的檢索方法
7.2.1基於大詞表連續語音識別器最優候選的檢索方法
7.2.2基於子詞識別器最優候選的檢索方法
7.3基於音節格線搜尋的檢索方法
7.3.1音節格線的若干定義及性質
7.3.2基於音節格線搜尋的檢索方法
7.3.3索引去冗餘方法
7.3.4檢索性能分析
7.4基於音節倒排索引的檢索方法
7.4.1倒排索引結構
7.4.2採用時間匹配機制的檢索方法
7.4.3採用位置匹配機制的檢索方法
7.4.4檢索性能分析
7.5基於後驗機率鄰接音節矩陣的檢索方法
7.5.1語音文檔的表示
7.5.2格線的鄰接音節後驗機率矩陣
7.5.3語音文檔的鄰接音節後驗機率矩陣
7.5.4檢索方法描述
7.5.5基於韻律加權的索引修正
7.5.6檢索性能分析
參考文獻
第8章語音文檔檢索中的容錯技術
8.1基於模糊匹配策略的容錯方法
8.2基於融合策略的容錯方法
8.2.1索引層面的融合
8.2.2分數層面的融合
8.3基於擴充格線的容錯方法
8.3.1算法的基本思想
8.3.2基於局部路徑的簡化計算
8.3.3基於擴充格線的檢索精度提高方法
8.3.4檢索性能分析
8.4基於詞片語言模型的容錯方法
8.4.1詞片
8.4.2基於互信息的詞片選擇算法
8.4.3基於詞片的語言模型
8.4.4採用詞片識別器的檢索方法
參考文獻
第四部分語義級的說話人檢索
第9章說話人檢索
9.1說話人分割
9.2檢索中的說話人識別技術
9.2.1基於gmm的識別方法
9.2.2基於gmm—ubm的識別方法
9.3直接利用說話人識別實現的檢索技術
9.3.1極低錯誤接受率的實現
9.3.2訓練語料不充分問題的解決
9.4間接利用說話人識別實現的檢索技術
9.4.1錨模型索引方法
9.4.2gmm模型索引方法
參考文獻
第五部分語義級的音樂檢
第10章音樂自動標註
10.1音樂聲學基礎
10.1.1樂音的感知
10.1.2音程、音律、音名與音高標準
10.1.3音樂的要素
10.2音樂自動標註方法及存在的問題
10.3基於諧波結構信息的音樂標註
10.3.1基於bp神經網路的起始點檢測
10.3.2基於諧波結構信息的多基頻估計方法
10.4基於半音域頻率係數的歌曲旋律提取
10.4.1半音域頻率係數
10.4.2基於viterbi方法的旋律提取
參考文獻
第11章音樂檢索
11.1哼唱檢索
11.1.1基於規則的哼唱旋律提取
11.1.2樂曲庫的索引方法
11.1.3旋律匹配
11.2拍打檢索
11.2.1特徵提取
11.2.2基於drw的匹配計算
11.3基於色度圖的復調音樂檢索
11.3.1色度
11.3.2色度圖
11.3.3離散色度圖和色度特徵
11.3.4基於色度的相關計算與檢索
參考文獻
文章節選
信息檢索(information retrieval)技術的歷史最早可以追溯到圖書資料的手工檢索時期,主要套用於圖書館等場所,從大量的圖書資料中找到用戶所需要的書目。隨著現代技術的發展,一方面人類積累的圖書、資料、檔案越來越多,且多以電子化的形態存在,採用傳統的手工查找方法難以滿足實際要求,如何有效管理和高效查找相應的內容變得越來越迫切;另一方面計算機技術在信息處理領域的快速發展,也為高效地實現自動信息檢索提供了可能,由此產生了現代信息檢索技術。
現代信息檢索是指針對用戶的檢索需求,利用一定的檢索算法,從結構化或非結構化的數據中獲取相關有用信息的過程。這一概念的提出最早可以追溯到1945年Bush的論文。在該文中,作者第一次提出了設計自動的、能在大規模存儲數據中進行查找的機器的構想。這篇論著被認為是現代信息檢索技術的開山之作。
現實世界中存在著大量的數據檔案,它們保存了歷史上多種多樣的信息。這些檔案既有文本類型的,如各種報刊、圖書資料和科技文獻等,也有音、視頻多媒體類型的,如影視節目、音樂、圖片等。由於面對的數據對象的類型不同,其所要查找的內容及所採用的方法也有所不同,因此通常可以將信息檢索技術分為文本信息檢索和多媒體信息檢索兩大類。
從20世紀40年代信息檢索概念的提出,到50年代文本信息檢索的逐步興起,再到90年代蓬勃發展起來的多媒體信息檢索技術,時至今日信息檢索這一研究方向經歷了巨大的變化,從早期基於文本的信息檢索發展到當前基於內容的多媒體信息檢索,檢索源的數據類型越來越複雜,檢索策略和技術手段也越來越豐富。下面我們將分別介紹文本信息檢索與多媒體信息檢索各自的相關概念,以及它們主要的進展情況。