《語音識別基本法:Kaldi實踐與探索》是2021年電子工業出版社出版的圖書,作者是湯志遠。
基本介紹
- 中文名:語音識別基本法:Kaldi實踐與探索
- 作者:湯志遠
- 類別:計算機/網路類圖書
- 出版社:電子工業出版社
- 出版時間:2021年2月
- 頁數:256 頁
- 定價:89 元
- 開本:16 開
- 裝幀:平裝-膠訂
- ISBN:9787121404788
內容簡介,圖書目錄,作者簡介,
內容簡介
語音是新一代人機互動的方式,語音識別是實現這一方式的關鍵環節,也是實現人工智慧的基本步驟之一。
本書結合當下使用廣泛的Kaldi工具,對語音識別的基本概念和流程進行了詳細的講解,包括GMM-HMM、DNN-HMM、端到端等常用結構,並探討了語音識別在實際套用中的問題,包括說話人自適應、噪聲對抗與環境魯棒性、小語種語音識別、關鍵字識別與嵌入式套用等方面,也對語音技術的相關前沿課題進行了介紹,包括說話人識別、語種識別、情緒識別、語音合成等方向。
本書的寫作以讓讀者快速、直觀地理解概念為目標,只展示*基本的數學公式,同時本書注重理解與實踐相結合,在對語音技術各個概念的講解中都展示了相應的Kaldi語音處理命令,以便讓讀者進一步融會貫通。
本書適用於語音識別及相關技術的初學者、在校學生,以及基於Kaldi進行產品研發的同仁,也可以作為語音從業者的參考書目。
圖書目錄
1 語音是什麼 2
1.1 大音希聲 2
1.2 產生語音 4
1.3 看見語音 5
1.4 小結 8
2 語音識別方法 9
2.1 總體思路 10
2.2 聲學模型GMM-HMM 12
2.2.1 HMM 12
2.2.2 GMM 14
2.2.3 訓練 15
2.3 聲學模型DNN-HMM 16
2.4 語言模型 18
2.4.1 N-Gram 18
2.4.2 RNN語言模型 18
2.5 解碼器 20
2.6 端到端結構 22
2.6.1 CTC 23
2.6.2 RNN-T 26
2.6.3 Attention 27
2.6.4 Self-Attention 29
2.6.5 CTC Attension 31
2.7 開源工具和硬體平台 32
2.7.1 深度學習平台 32
2.7.2 語音識別工具 33
2.7.3 硬體加速 34
2.8 小結 36
3 完整的語音識別實驗 37
3.1 語音識別實驗的步驟 38
3.2 語音識別實驗的運行 46
3.3 其他語音任務案例 47
3.4 小結 47
4 前端處理 48
4.1 數據準備 48
4.2 聲學特徵提取 52
4.2.1 預加重(Pre-Emphasis) 54
4.2.2 加窗(Windowing) 54
4.2.3 離散傅立葉變換(DFT) 55
4.2.4 FBank特徵 56
4.2.5 MFCC特徵 57
4.3 小結 58
5 訓練與解碼 59
5.1 GMM-HMM基本流程 60
5.1.1 訓練 60
5.1.2 解碼 61
5.1.3 強制對齊 62
5.2 DNN-HMM基本流程 63
5.3 DNN配置詳解 64
5.3.1 component和component-node 65
5.3.2 屬性與描述符 66
5.3.3 不同組件的使用方法 66
5.3.4 LSTM配置範例 76
5.4 小結 81
6 說話人自適應 84
6.1 什麼是說話人自適應 84
6.2 特徵域自適應與聲道長度規整 85
6.3 聲學模型自適應:HMM-GMM系統 87
6.3.1 基於MAP的自適應方法 88
6.3.2 基於MLLR的自適應方法 91
6.4 聲學模型自適應:DNN系統 93
6.4.1 模型參數自適應學習 93
6.4.2 基於說話人向量的條件學習 94
6.5 領域自適應 95
6.6 小結 95
7 噪聲對抗與環境魯棒性 97
7.1 環境魯棒性簡介 97
7.2 前端信號處理方法 98
7.2.1 語音增強方法 99
7.2.2 特徵域補償方法 103
7.2.3 基於DNN的特徵映射 106
7.3 後端模型增強方法 108
7.3.1 簡單模型增強方法 108
7.3.2 模型自適應方法 109
7.3.3 多場景學習和數據增強方法 109
7.4 小結 110
8 小語種語音識別 111
8.1 小語種語音識別面臨的主要困難 112
8.2 基於音素共享的小語種語音識別 113
8.3 基於參數共享的小語種語音識別方法 118
8.4 其他小語種語音識別方法 121
8.4.1 Grapheme 建模 121
8.4.2 網路結構與訓練方法 121
8.4.3 數據增強 122
8.5 小語種語音識別實踐 122
8.5.1 音頻數據採集 122
8.5.2 文本數據採集 122
8.5.3 文本正規化 123
8.5.4 發音詞典設計 123
8.6 小結 123
9 關鍵字識別與嵌入式套用 125
9.1 基本概念 125
9.2 評價指標 126
9.3 實現方法 129
9.3.1 總體框架 129
9.3.2 基於LVCSR的KWS系統 130
9.3.3 基於示例的KWS 132
9.3.4 端到端KWS 133
9.3.5 滑動視窗 133
9.4 嵌入式套用 134
9.4.1 模型壓縮 134
9.4.2 遷移學習 136
9.4.3 網路結構搜尋與設計 137
9.5 小結 137
10 說話人識別 140
10.1 什麼是說話人識別 140
10.1.1 基本概念 140
10.1.2 技術難點 143
10.1.3 發展歷史 143
10.2 基於知識驅動的特徵設計 144
10.3 基於線性高斯的統計模型 147
10.3.1 高斯混合模型-通用背景模型 147
10.3.2 因子分析 150
10.4 基於數據驅動的特徵學習 154
10.4.1 模型結構 156
10.4.2 訓練策略 157
10.4.3 多任務學習 157
10.5 基於端到端的識別模型 158
10.6 小結 160
11 語種識別 161
11.1 什麼是語種識別 161
11.2 語言的區分性特徵 163
11.3 統計模型方法 165
11.3.1 基於聲學特徵的識別方法 165
11.3.2 基於發音單元的語種識別方法 167
11.4 深度學習方法 170
11.4.1 基於DNN的統計模型方法 170
11.4.2 基於DNN的端到端建模 172
11.4.3 基於DNN的語言嵌入 176
11.5 Kaldi中的語種識別 178
11.6 小結 180
12 語音情緒識別 182
12.1 什麼是語音情緒識別 182
12.2 語音情緒模型 185
12.2.1 離散情緒模型 186
12.2.2 連續情緒模型 186
12.3 語音情緒特徵提取 187
12.3.1 語音情緒識別中的典型特徵 187
12.3.2 局部特徵與全局特徵 190
12.4 語音情緒建模 192
12.4.1 離散情緒模型 192
12.4.2 連續情緒模型 195
12.5 深度學習方法 196
12.5.1 基礎DNN方法 196
12.5.2 特徵學習 198
12.5.3 遷移學習 200
12.5.4 多任務學習 200
12.6 小結 201
13 語音合成 203
13.1 激勵-回響模型 204
13.2 參數合成 207
13.3 拼接合成 208
13.4 統計模型合成 210
13.5 神經模型合成 212
13.6 基於注意力機制的合成系統 214
13.7 小結 216
參考文獻 217
索引 243
作者簡介
湯志遠,中國科學院大學與清華大學聯合培養博士,清華博士後。專注於語音技術,研究領域涉及語音識別、聲紋識別、語種識別、口語測評等,在國際重要期刊或會議上累計發表論文數十篇。個人主頁:http://tangzy.cslt.org。
李藍天,清華大學博士、博士後,專注於機器學習在語音信號處理中的方法研究,研究領域涉及說話人識別、語音識別、音頻事件檢測、語種識別、情感識別等,現已在國際期刊或會議上發表學術論文50餘篇。個人主頁:http://lilt.cslt.org。
王東,清華大學副研究員,清華大學語音和語言技術中心副主任,英國愛丁堡大學博士,歷任Oracle中國軟體工程師、IBM中國高級軟體工程師、英國愛丁堡大學Marie Curie研究員、法國EURECOM博士後研究員、美國Nuance公司高級研究科學家,在語音領域國際重要期刊或會議上發表論文150餘篇,是IEEE高級會員,APSIPA(亞太信號與信息處理協會)SLA(服務等級協定)主席。個人主頁:http://wangd.cslt.org。
石穎,哈爾濱工業大學在讀博士,曾任清華大學語音和語言技術中心語音算法工程師,專注於語音相關技術,研究領域涉及語音識別、小語種語音識別、命令詞識別、語音增強。個人主頁:http://shiying.cslt.org。
蔡雲麒,中國科學院物理研究所與美國橡樹嶺國家實驗室聯合培養博士研究生,清華大學博士後,目前研究方向為語音領域的機器學習算法研究。在國際期刊和會議上發表論文十多篇。個人主頁:http://caiyq.cslt.org。
鄭方,清華大學研究員、博士生導師,清華大學語音和語言技術中心主任,清華大學人工智慧研究院聽覺智慧型研究中心主任,北京信息科學與技術國家研究中心智慧型科學部常務副主任,得意音通公司創始人。個人主頁:http://cslt.riit.tsinghua.edu.cn/~fzheng。