內容簡介
本書系統地介紹語音信號處理的基礎、概念、原理、方法與套用,以及該學科領域取得的新進展。全書共分9章,其中第1章緒論,介紹語音信號處理及其發展過程。第2章介紹語音產生與人類聽覺的機理,傳統的線性語音產生模型,以及近年來剛剛興起的非線性語音產生模型。第3章從語音信號的時域特徵入手,引入時頻分析的思想,並進一步闡述時頻分析中短時傅立葉變換和小波變換在語音信號特徵分析中的套用,最後對廣泛使用的倒譜特徵以及同態解卷積進行介紹。第4章介紹語音信號的線性預測原理、解法、幾種推演方法以及線譜對分析法。第5章介紹語音編碼的相關知識,包括語音的波形編碼、線性預測編碼、極低速率語音編碼技術,以及相關編碼器的性能指標和評測方法。第6章介紹語音識別的基本內容,從基於矢量量化的識別技術到動態時間歸正的識別技術,再到隱馬爾可夫模型的識別技術,從孤立詞識別到連線詞識別及連續語音識別技術,再到關鍵字檢出技術,最後還介紹近年來興起的一些語音識別套用技術,包括語言學模型的自適應、HTK套用以及Lattice結構和混淆網路等。第7章介紹說話人識別的基本原理,主要包括說話人的特徵選取、說話人識別的主要方法,以及近年來備受關注的GMMUBM模型、開集說話人識別的規整技術等。第8章介紹近年來發展迅速的頑健語音識別技術,從影響語音識別性能的環境變化因素分析開始,介紹噪聲環境下頑健語音識別技術,以及變異語音識別的技術。第9章介紹語音合成的基本原理、線性預測合成、共振峰合成以及漢語按規則合成,以及最近興起的基於HMM合成技術等內容。
本書可作為高等院校計算機套用、信號與信息處理、通信與電子系統等專業及學科的高年級本科生、研究生教材,也可供該領域的科研及工程技術人員參考。
圖書目錄
第1章緒論
1.1語音信號處理的發展
1.2語音信號處理的套用
1.3語音信號處理的總體結構
參考文獻
第2章語音信號的聲學基礎及產生模型
2.1語音信號的產生
2.1.1語音的發音器官
2.1.2語音的聲學特徵
2.1.3語音信號在時域和頻域的表示
2.1.4漢語中語音的分類
2.1.5漢語語音的韻律特性
2.2語音信號的感知
2.2.1聽覺系統
2.2.2聽覺特性
2.2.3掩蔽效應
2.3語音信號的線性產生模型
2.3.1激勵模型
2.3.2聲道模型
2.3.3輻射模型
2.4語音信號的非線性產生模型
2.4.1調頻調幅模型的基本原理
2.4.2Teager能量運算元
2.4.3能量分離算法
2.4.4調頻調幅模型的套用
參考文獻
第3章語音信號的特徵分析
3.1語音信號數位化
3.1.1語音信號的採樣和量化
3.1.2短時加窗處理
3.2語音信號的時域分析
3.2.1短時能量分析
3.2.2短時平均過零率
3.2.3短時自相關函式和短時平均幅度差函式
6.2基於矢量量化的識別技術
6.2.1Kmeans矢量量化算法
6.2.2LBG算法
6.3動態時間歸正的識別技術
6.3.1DTW基本原理
6.3.2模板訓練算法
6.4隱馬爾可夫模型技術
6.4.1HMM基本思想
6.4.2HMM基本算法
6.4.3HMM算法實現中的問題
6.4.4關於HMM訓練的幾點考慮
6.5連線詞語音識別技術
6.5.1連線詞識別問題的一般描述
6.5.2二階動態規划算法
6.5.3分層構築方法
6.6大詞表連續語音識別中的聲學模型和語言學模型
6.6.1聲學模型
6.6.2統計語言學模型
6.6.3統計語言學模型平滑技術
6.6.4語言學模型自適應技術
6.7大詞表連續語音識別中的解碼技術
6.7.1圖的基本搜尋算法
6.7.2面向語音識別的搜尋算法
6.8大詞表連續語音識別後處理技術
6.8.1語音識別中間結果的表示形式
6.8.2錯誤處理
6.8.3最小字錯誤率解碼方法
6.9基於HMM的自適應技術
6.9.1基於Bayesian理論的自適應方法
6.9.2基於變換的自適應方法
6.10關鍵字檢出技術
6.10.1問題描述
6.10.2關鍵字檢出系統的組成
6.10.3垃圾模型建模方法
6.10.4語音解碼器的設計
6.10.5關鍵字確認過程
6.10.6關鍵字檢出系統性能最佳化
6.11語音識別的套用技術
6.11.1語音信息檢索
6.11.2發音學習技術
6.11.3基於語音的情感處理
6.11.4網路環境下的語音識別
6.11.5嵌入式語音識別技術
6.12HTK工具介紹
6.12.1數據準備階段
6.12.2模型訓練階段
6.12.3識別階段
參考文獻
第7章說話人識別
7.1概述
7.2說話人識別的特徵選取
7.2.1特徵參數的評價方法
7.2.2說話人識別系統中常用的特徵
7.3說話人識別的主要方法
7.3.1與文本有關的識別方法
7.3.2與文本無關的識別方法
7.3.3文本提示型的識別方法
7.4閾值的選取
7.5得分規整
7.5.1零規整(zero normalization)
7.5.2測試規整(test normalization)
7.5.3說話人自適應的測試規整
7.5.4TZnorm
7.5.5Hnorm
7.5.6Cnorm
7.6引入區分判別模型的說話人識別
7.6.1SVM
7.6.2基於SVM的說話人識別
7.6.3基於GMM得分的SVM說話人識別
7.6.4基於GMM均值超矢量的SVM說話人識別
7.7複雜信道下的說話人識別
7.7.1特徵映射
7.7.2說話人模型合成
7.7.3擾動屬性投影