內容簡介
本書貫穿了信號的獲取、處理、分析和識別整條鏈路所需的關鍵知識點,以聲信號為研究對象,闡述了傳統信號處理、自適應信號處理、機器學習等信號處理和智慧型分析設計等知識要點。全書總共16 章,第1~4 章介紹了經 典信號處理與分析方法,第5~11 章闡述了先進信號處理方法、人工特徵的獲取原理和方法,第12~16 章主要說明了深度學習、混合模型等智慧型分析方法。
本書的主要讀者對象為聲信號處理和分析相關學科的高校學生,以及從事聲信號處理的相關科研工作者。本書對語音信號處理相關專業的技術人員也有一定的參考價值。本書也適合對智慧型語音信號分析感興趣的讀者閱讀。
圖書目錄
第 1 章 信號與系統 1
1.1 信號的表述與分析. 1
1.2 離散處理 . 2
1.3 卷積 2
1.3.1 連續卷積 . 2
1.3.2 離散卷積 . 3
1.3.3 卷積的重要性質. 3
1.4 系統的描述 3
1.4.1 物理系統 . 4
1.4.2 濾波系統 . 4
1.5 抽樣定理 . 4
1.5.1 抽樣的基本準則. 4
1.5.2 工具①:連續時間脈衝串函式及其傅立葉變換 4
1.5.3 工具②:卷積操作下傅立葉變換的性質 5
1.5.4 推導:抽樣定理. 6
1.5.5 混疊案例:高頻的信號表現出低頻的行為. 7
1.6 問題 7
第 2 章 離散傅立葉變換. 9
2.1 離散信號的傅立葉變換 9
2.1.1 離散時間傅立葉變換 . 9
2.1.2 大致思路 . 9
2.1.3 從時間上離散的信號到時間上連續的信號. 10
2.1.4 脈衝串調製後信號的傅立葉變換 10
2.1.5 離散時間傅立葉變換 . 10
2.1.6 正交性與反離散時間傅立葉變換 11
2.2 DTFT 的重要性質 11
2.2.1 線性性質 . 12
2.2.2 時移性質 . 12
2.2.3 頻移性質 . 12
2.2.4 時域卷積定理 . 12
2.2.5 頻域卷積定理 . 13
2.3 離散傅立葉變換 13
2.3.1 DFT 的定義 13
2.3.2 基函式的正交性. 14
2.3.3 DFT 的反變換 . 14
2.3.4 簡要總結 . 15
2.4 DFT 簡潔描述. 15
2.5 DFT 的性質 16
2.5.1 工具①:周期延拓序列與主值序列 . 16
2.5.2 線性性質 . 17
2.5.3 時域循環移位定理 18
2.5.4 頻域循環移位定理 18
2.5.5 循環卷積定理 . 19
2.6 問題 19
第 3 章 Z 變換 . 21
5.5.2 濾波框架 . 49
5.5.3 雙誤差函式 50
5.5.4 最優濾波器 50
5.6 問題 51
第 6 章 信道 . 52
6.1 信道建模 . 52
6.2 信道的可變性. 53
6.2.1 鏡像源模型 53
6.2.2 隨房間大小的變化 55
6.2.3 隨牆面材質變化. 55
6.2.4 隨空間位置變化. 56
6.2.5 隨周圍環境變化. 56
6.3 信道的頻率選擇性. 56
6.3.1 單信道的頻率選擇性 . 56
6.3.2 多信道的共零點特性 . 57
6.4 信道均衡 . 57
6.5 噪聲對消 . 58
6.6 問題 59
第 7 章 信道估計 60
7.1 信號模型 . 60
7.1.1 代價函式 . 61
7.1.2 最速梯度下降算法 61
7.2 LMS 算法與 NLMS 算法 63
7.2.1 LMS 算法 63
7.2.2 收斂性分析 64
7.2.3 NLMS 算法 64
7.3 變換域信道估計方法 . 65
7.3.1 信號模型 . 65
7.3.2 代價函式 . 67
7.3.3 兩個關鍵的梯度函式 . 67
7.3.4 梯度計算與信道更新 . 68
7.3.5 Hessian 矩陣求逆的簡化 69
7.4 問題 69
第 8 章 陣列信號處理 70
8.1 波束形成框架. 70
8.2 空間回響 . 71
8.3 指向性因子和白噪聲增益 . 72
8.3.1 指向性因子 72
8.3.2 白噪聲增益 73
8.3.3 信噪比增益 73
8.4 波束形成器設計 75
8.4.1 延遲求和波束形成 75
8.4.2 超指向波束形成. 75
8.4.3 差分波束形成 . 76
8.4.4 正交級數展開波束形成. 78
8.4.5 自適應波束形成. 80
8.5 問題 81
第 9 章 語音信號 82
9.1 語音信號的產生機理 . 82
9.2 脈衝串模型與信號的基本特徵. 83
9.3 自回歸模型 84
9.4 自回歸模型的求解. 84
9.5 問題 88
第 10 章 時頻域信號分析. 89
10.1 信號分幀處理 89
10.2 PR 條件 90
10.3 典型的窗函式 91
10.4 問題 . 94
第 11 章 MFCC 特徵 95
11.1 人耳的聽覺機理 . 95
11.2 濾波器組. 96
11.2.1 1 倍頻程 96
3
11.2.2 梅爾頻率 96
11.2.3 等效矩形頻寬 97
11.2.4 伽馬通(Gammatone)濾波器組 . 97
11.3 線性加權與梅爾譜 99
11.4 譜包絡與倒譜 100
11.5 梅爾頻率倒譜係數(MFCC).101
11.6 問題 .102
第 12 章 GMM 模型和 EM 算法103
12.1 從貝葉斯到混合模型.103
12.2 GMM 模型 104
12.3 EM 算法 .105
12.3.1 多個觀測聯合估計 .106
12.3.2 離散隱變數的估計 .106
12.4 GMM-EM 算法 .107
12.4.1 GMM 模型下疊代公式的化簡107
12.4.2 混合係數 的疊代估計 107
12.4.3 均值的疊代估計108
12.4.4 方差的疊代估計108
12.5 套用:說話人識別 109
12.5.1 說話人聲學特徵109
12.5.2 說話人識別的基本框架109
12.5.3 參數學習 110
12.6 問題 .111
第 13 章 深度神經網路與反向傳播 112
13.1 神經網路.112
13.1.1 神經元.112
13.1.2 神經網路的建模能力 113
13.1.3 深度前饋神經網路 .113
13.2 網路結構.114
13.2.1 卷積網路 114
13.2.2 殘差網路 115
13.2.3 循環神經網路 116
13.2.4 注意力機制網路117
13.3 代價函式.117
13.3.1 均方誤差 117
13.3.2 交叉熵.118
13.3.3 負對數似然 .118
13.4 反向傳播方法 118
13.4.1 參數更新的基本原理 118
13.4.2 導數的鏈式法則119
13.4.3 反向傳播 119
13.4.4 非頂層參數更新121
13.4.5 頂層參數更新 121
13.5 問題 .122
第 14 章 分類、聚類和降維 .123
14.1 距離與相似度 123
14.1.1 樣本之間的距離123
14.1.2 分布之間的距離123
14.1.3 相似度.124
14.2 分類 .124
14.2.1 K 近鄰算法124
14.2.2 樸素貝葉斯 .125
14.2.3 Logistic 二分類回歸與 Softmax 多分類回歸 .126
14.2.4 深度學習 128
14.3 有監督學習和無監督學習 128
14.3.1 有監督學習 .128
14.3.2 無監督學習 .128
14.4 聚類 .129
14.4.1 K 均值聚類129
14.4.2 密度峰值聚類 129
14.4.3 層級聚類 130
14.5 降維 .131
14.6 問題 .132
第 15 章 支持向量機 133
15.1 決策函式與最佳化問題.133
15.1.1 決策函式 133
15.1.2 設計準則 134
15.1.3 最佳化問題 134
15.1.4 拉格朗日函式與 KKT 條件 134
15.1.5 對偶最佳化問題 136
15.2 穩健 SVM .136
15.3 Relu 函式與 SVM .139
15.4 核函式 SVM 140
15.5 SVM 問題的求解141
15.6 問題 .143
第 16 章 聲紋特徵提取與說話人識別.144
16.1 聲紋識別的基本框架.144
16.1.1 模型構建的基本思路 145
16.1.2 說話人註冊的基本過程145
16.1.3 說話人辨識的基本過程146
16.2 聲紋提取模型的構建與訓練 .147
16.2.1 幀級別特徵提取147
16.2.2 片段級別特徵提取 .148
16.3 問題 .149
附錄 A .150
A.1 傅立葉變換對.150
A.2 離散時間傅立葉變換對 151
A.3 拉普拉斯變換對151
A.4 Z 變換對 .152
A.5 點到超平面的距離.153
附錄 B 符號與運算符說明155
B.1 符號說明 .155
B.2 運算符說明 155
參考文獻157