《聲紋技術:從核心算法到工程實踐》是電子工業出版社於2020年9月出版的圖書。這是第一本系統性地介紹聲紋識別、聲紋分割聚類及聲紋在語音識別、語音合成、人聲分離等領域中套用的技術書。
基本介紹
- 書名:聲紋技術:從核心算法到工程實踐
- 作者:王泉
- 出版社:電子工業出版社
- 出版時間:2020年9月
- 頁數:292 頁
- 定價:99 元
- 開本:16 開
- ISBN:9787121395291
內容簡介,圖書目錄,
內容簡介
這是第一本系統性地介紹聲紋識別、聲紋分割聚類及聲紋在語請棄音識別、語音合成、人聲分離等領域中套用的技術書。《聲紋技術:從核心算法到工奔定墓程實踐》內容全面且緊隨時代前沿,不僅涵蓋了早至 20世紀 60 年代的經典方法,而且以大量篇幅著重介紹了深度學習時代的最新技術。本書注重理論與實踐的結合,除了配備大量實踐案例與習題,還有專門章節介紹聲紋技術在實際工程部署方面的諸多課題。
該書面向大學與研究機構的學生、教研人員,以及企事業單位從事聲紋技術相關工作的工程師、架構師和產品經理等。該書內容不僅涵蓋了 20 世紀 60 年代的最早期聲紋識別方法,還介紹了大量 2019年和 2020 年發表的論文,緊隨業界最新發展。該書除了介紹學術內容,還有專門的章節(第 4 章)介紹工程部署,覆蓋了聲紋技術部署的諸多實際課題(如版本控制、分散式計算等)。
圖書目錄
1 聲紋技術的前世今生 1
1.1 什麼是聲紋慨雄她1
1.2 最早的聲紋技術2
1.3 聲紋技術的發展5
1.3.1 聲紋技術與音頻信號處理5
1.3.2 模板匹配方法6
1.3.3 早期統計學方法 8
1.3.4 高斯混合模型8
1.3.5 聯合因子分析與 i-vector9
1.4 大變革:深度學習時代的來臨 10
1.5 新的機遇:智慧型語音助手的普及11
2 音晚剃奔頻信號處理基礎 14
2.1 欲懂聲紋,先學音頻14
2.2 聲學基礎 15
2.2.1 語音的產生 15
2.2.2 正弦波 16
2.2.3 頻譜17
2.2.4 聽覺與感知 18
2.2.5 聽覺的非線性21
2.3 音頻信號基雄照轎禁礎概念24
2.3.1 模擬音頻信號25
2.3.2 模擬轉數字:採樣與量化27
2.3.3 音頻編碼29
2.3.4 音頻檔案格式33
2.3.5 動手實踐:SoX 程式 35
2.4 從信號到特徵:短時分析 38
2.4.1 傳統特徵分析的不足38
2.4.2 分幀38
2.4.3 窗函式處理 39
2.4.4 幀疊加與幀採樣 41
2.5 常用的音頻特徵42
2.5.1 時域特徵42
2.5.2 從時域到頻域:傅立葉變換45
2.5.3 頻譜、倒譜、時頻譜和功率譜48
2.5.4 感知喇跨希線性預測49
2.5.5 梅爾倒譜係數49
2.5.6 功率正則化倒譜係數50
2.5.7 動手實踐:用 LibROSA 提取 MFCC 特徵 50
3 聲紋識別技術 54
3.1 聲紋識別:聲紋技術的核心54
3.1.1 名稱與概念 54
3.1.2 按任務分類 55
3.1.3 按文本內容分類 56
3.1.4 系統流程58
3.2 聲紋識別的評價指標60
3.2.1 相似匹配60
3.2.2 錄入集與驗證集 61
3.2.3 ROC 曲線及曲線下面積62
3.2.4 等錯率 63
3.2.5 最小檢測代價函式64
3.2.6 辨認準確率 64
3.3 深度學習之前的方法65
3.3.1 早期方法65
3.3.2 高斯混合模型方法66
3.3.3 高斯混合模型-通用背景模型70
3.3.4 高斯混合模型-支持向量機 72
3.3.5 聯合因子分析74
3.3.6 i-vector 方法 76
3.4 基於深度學習的方法78
3.4.1 關於深度學習的簡單介紹79
3.4.2 聲紋識別中的神經網路84
3.4.3 運行時的推理邏輯86
3.4.4 聲紋識別中的損失函式93
3.5 聲紋識別中的數據處理102
3.5.1 聲紋識別的數據需求102
3.5.2 數據預處理 103
3.5.3 數據增強105
3.5.4 多數據集訓練110
3.6 聲紋驗證 112
3.6.1 驗證方法112
3.6.2 分數正則化 112
3.7 常用數據集115
3.7.1 TIMIT 115
3.7.2 VCTK 115
3.7.3 LibriSpeech 116
3.7.4 LibriVox116
3.7.5 VoxCeleb116
3.7.6 CN-Celeb117
3.7.7 BookTubeSpeech 117
3.7.8 維基百科語音庫 117
3.7.9 DeepMine118
4 聲紋識別的工程部署 120
4.1 從模型到產品 120
4.1.1 模型不等於產品 120
4.1.2 軟體工程基本蒸詢臘漏概念120
4.2 聲紋識別常見工程問題126
4.2.1 錄入階段的工程問題126
4.2.2 識別階段的工程問題128
4.2.3 語音處理引擎:流式信號處理與計算圖131
4.2.4 模型版本疊代137
4.2.5 線上代理指標138
4.3 全設備端部署 139
4.3.1 部署方式的分類依據139
4.3.2 版本疊代更新139
4.3.3 資源限制:設備端的最大挑戰141
4.3.4 模型量化技術141
4.4 全伺服器端部署144
4.4.1 全伺服器端架構 144
4.4.2 版本疊代更新145
4.4.3 負載均衡與故障處理149
4.5 複合式部署151
4.5.1 聲紋信息的敏感性151
4.5.2 複合式架構 152
4.5.3 版本疊代更新153
5 聲紋分割聚類技術 156
5.1 分割聚類:更好地理解對話語音156
5.1.1 關於名稱與歷史 156
5.1.2 常見套用157
5.1.3 常見通用架構160
5.1.4 聲紋分割聚類的不同任務類型162
5.2 聲紋分割聚類與多說話人識別 163
5.2.1 聲源分離163
5.2.2 連續聲紋識別164
5.2.3 說話人轉換檢測 165
5.3 聚類分析 167
5.3.1 聚類不等於分類 167
5.3.2 線上聚類技術167
5.3.3 離線聚類技術170
5.3.4 基於離線聚類的線上聲紋分割聚類178
5.4 二次分割方法 180
5.4.1 基於分類的二次分割180
5.4.2 基於隱馬爾可夫模型的二次分割181
5.5 監督式方法182
5.5.1 聚類方法的一些問題182
5.5.2 從傳統聚類到監督式方法184
5.5.3 無界交織態循環神經網路187
5.5.4 判別神經聚類191
5.5.5 置換不變性訓練 195
5.5.6 端到端模型 198
5.5.7 與語音識別的聯合訓練200
5.6 聲紋分割聚類的評價指標 203
5.6.1 評價指標的置換不變性203
5.6.2 分割聚類錯誤率 203
5.6.3 詞分割聚類錯誤率205
5.6.4 其他指標206
5.7 常用數據集206
5.7.1 CALLHOME206
5.7.2 NIST SRE 2000207
5.7.3 ICSI208
5.7.4 Fisher208
5.7.5 AMI209
6 聲紋技術的其他套用 211
6.1 聲紋的力量211
6.2 用於語音識別 212
6.2.1 語音識別技術概述212
6.2.2 聲紋自適應聲學模型213
6.3 用於語音合成 214
6.3.1 語音合成技術概述214
6.3.2 聲紋克隆:合成任意說話人的聲音218
6.4 用於語音檢測 220
6.4.1 語音檢測技術概述220
6.4.2 個性化語音檢測 220
6.5 用於人聲分離 221
6.5.1 人聲分離技術概述221
6.5.2 定向人聲分離223
6.6 聲紋轉換 226
6.7 聲紋還原度測試227
6.7.1 音頻處理的聲紋保留性質227
6.7.2 音頻編碼格式的還原度測試228
6.7.3 語音合成技術的還原度測試229
7 聲紋技術的未來 231
7.1 概述 231
7.2 聲紋技術的挑戰231
7.2.1 對信道變化的魯棒性231
7.2.2 對聲紋變化的魯棒性232
7.2.3 反欺詐 233
7.3 對更多數據的需求235
7.3.1 更為多樣的數據增強235
7.3.2 用於訓練的合成語音237
7.3.3 自動數據採集237
7.4 聲紋技術的未來研究方向 238
7.4.1 對抗學習238
7.4.2 多模態說話人識別240
7.4.3 聯邦學習241
7.4.4 集成學習243
7.4.5 同時完成聲紋分割聚類與人聲分離245
7.5 結語 246
中英辭彙對照 248
參考文獻 259
3.1.4 系統流程58
3.2 聲紋識別的評價指標60
3.2.1 相似匹配60
3.2.2 錄入集與驗證集 61
3.2.3 ROC 曲線及曲線下面積62
3.2.4 等錯率 63
3.2.5 最小檢測代價函式64
3.2.6 辨認準確率 64
3.3 深度學習之前的方法65
3.3.1 早期方法65
3.3.2 高斯混合模型方法66
3.3.3 高斯混合模型-通用背景模型70
3.3.4 高斯混合模型-支持向量機 72
3.3.5 聯合因子分析74
3.3.6 i-vector 方法 76
3.4 基於深度學習的方法78
3.4.1 關於深度學習的簡單介紹79
3.4.2 聲紋識別中的神經網路84
3.4.3 運行時的推理邏輯86
3.4.4 聲紋識別中的損失函式93
3.5 聲紋識別中的數據處理102
3.5.1 聲紋識別的數據需求102
3.5.2 數據預處理 103
3.5.3 數據增強105
3.5.4 多數據集訓練110
3.6 聲紋驗證 112
3.6.1 驗證方法112
3.6.2 分數正則化 112
3.7 常用數據集115
3.7.1 TIMIT 115
3.7.2 VCTK 115
3.7.3 LibriSpeech 116
3.7.4 LibriVox116
3.7.5 VoxCeleb116
3.7.6 CN-Celeb117
3.7.7 BookTubeSpeech 117
3.7.8 維基百科語音庫 117
3.7.9 DeepMine118
4 聲紋識別的工程部署 120
4.1 從模型到產品 120
4.1.1 模型不等於產品 120
4.1.2 軟體工程基本概念120
4.2 聲紋識別常見工程問題126
4.2.1 錄入階段的工程問題126
4.2.2 識別階段的工程問題128
4.2.3 語音處理引擎:流式信號處理與計算圖131
4.2.4 模型版本疊代137
4.2.5 線上代理指標138
4.3 全設備端部署 139
4.3.1 部署方式的分類依據139
4.3.2 版本疊代更新139
4.3.3 資源限制:設備端的最大挑戰141
4.3.4 模型量化技術141
4.4 全伺服器端部署144
4.4.1 全伺服器端架構 144
4.4.2 版本疊代更新145
4.4.3 負載均衡與故障處理149
4.5 複合式部署151
4.5.1 聲紋信息的敏感性151
4.5.2 複合式架構 152
4.5.3 版本疊代更新153
5 聲紋分割聚類技術 156
5.1 分割聚類:更好地理解對話語音156
5.1.1 關於名稱與歷史 156
5.1.2 常見套用157
5.1.3 常見通用架構160
5.1.4 聲紋分割聚類的不同任務類型162
5.2 聲紋分割聚類與多說話人識別 163
5.2.1 聲源分離163
5.2.2 連續聲紋識別164
5.2.3 說話人轉換檢測 165
5.3 聚類分析 167
5.3.1 聚類不等於分類 167
5.3.2 線上聚類技術167
5.3.3 離線聚類技術170
5.3.4 基於離線聚類的線上聲紋分割聚類178
5.4 二次分割方法 180
5.4.1 基於分類的二次分割180
5.4.2 基於隱馬爾可夫模型的二次分割181
5.5 監督式方法182
5.5.1 聚類方法的一些問題182
5.5.2 從傳統聚類到監督式方法184
5.5.3 無界交織態循環神經網路187
5.5.4 判別神經聚類191
5.5.5 置換不變性訓練 195
5.5.6 端到端模型 198
5.5.7 與語音識別的聯合訓練200
5.6 聲紋分割聚類的評價指標 203
5.6.1 評價指標的置換不變性203
5.6.2 分割聚類錯誤率 203
5.6.3 詞分割聚類錯誤率205
5.6.4 其他指標206
5.7 常用數據集206
5.7.1 CALLHOME206
5.7.2 NIST SRE 2000207
5.7.3 ICSI208
5.7.4 Fisher208
5.7.5 AMI209
6 聲紋技術的其他套用 211
6.1 聲紋的力量211
6.2 用於語音識別 212
6.2.1 語音識別技術概述212
6.2.2 聲紋自適應聲學模型213
6.3 用於語音合成 214
6.3.1 語音合成技術概述214
6.3.2 聲紋克隆:合成任意說話人的聲音218
6.4 用於語音檢測 220
6.4.1 語音檢測技術概述220
6.4.2 個性化語音檢測 220
6.5 用於人聲分離 221
6.5.1 人聲分離技術概述221
6.5.2 定向人聲分離223
6.6 聲紋轉換 226
6.7 聲紋還原度測試227
6.7.1 音頻處理的聲紋保留性質227
6.7.2 音頻編碼格式的還原度測試228
6.7.3 語音合成技術的還原度測試229
7 聲紋技術的未來 231
7.1 概述 231
7.2 聲紋技術的挑戰231
7.2.1 對信道變化的魯棒性231
7.2.2 對聲紋變化的魯棒性232
7.2.3 反欺詐 233
7.3 對更多數據的需求235
7.3.1 更為多樣的數據增強235
7.3.2 用於訓練的合成語音237
7.3.3 自動數據採集237
7.4 聲紋技術的未來研究方向 238
7.4.1 對抗學習238
7.4.2 多模態說話人識別240
7.4.3 聯邦學習241
7.4.4 集成學習243
7.4.5 同時完成聲紋分割聚類與人聲分離245
7.5 結語 246
中英辭彙對照 248
參考文獻 259