語音識別:原理與套用

語音識別:原理與套用

《語音識別:原理與套用》是一本由電子工業出版社於2020年6月出版的圖書,作者是洪青陽,李琳。本書系統梳理經典算法、前沿技術。

基本介紹

  • 書名:語音識別:原理與套用
  • 作者:洪青陽、李琳
  • 類別:計算機
  • 出版社:電子工業出版社
  • 出版時間:2020年6月
  • 頁數:332 頁
  • 定價:128 元
  • 開本:16 開
  • ISBN:9787121385025
內容簡介,圖書目錄,作者簡介,

內容簡介

《語音識別:原理與套用》系統地介紹了語音識別的原理和套用,解析GMM-HMM、DNN-HMM和E2E框架,WFST和LF-MMI等關鍵技術全貌

圖書目錄

第1章 語音識別概論 1
1.1 語音的產生和感知 1
1.2 語音識別過程 4
1.3 語音識別發展歷史 8
1.4 國內語音識別現狀 15
1.5 語音識別建模方法 19
1.5.1 DTW 19
1.5.2 GMM-HMM 20
1.5.3 DNN-HMM 20
1.5.4 端到端 22
1.6 語音識別開源工具 22
1.7 語音識別常用資料庫 22
1.8 語音識別評價指標 24
1.9 參考資料 24
第2章 語音信號基礎 28
2.1 聲波的特性 28
2.2 聲音的接收裝置 29
2.2.1 麥克風陣列 31
2.3 聲音的採樣 32
2.4 聲音的量化 33
2.5 語音的編碼 35
2.6 WAV檔案格式 38
2.7 WAV檔案分析 39
2.8 本章小結 42
思考練習題43
第3章 語音特徵提取 44
3.1 預處理 44
3.2 短時傅立葉變換 48
3.3 聽覺特性 51
3.4 線性預測 54
3.5 倒譜分析 55
3.6 常用的聲學特徵 56
3.6.1 語譜圖 57
3.6.2 FBank 58
3.6.3 MFCC 59
3.6.4 PLP 61
3.6.5 CQCC 62
3.7 本章小結 65
思考練習題66
第4章 HMM 67
4.1 HMM的基本概念 69
4.1.1 馬爾可夫鏈 70
4.1.2 雙重隨機過程 71
4.1.3 HMM的定義 72
4.2 HMM的三個基本問題 73
4.2.1 模型評估問題 74
4.2.2 最佳路徑問題 77
4.2.3 模型訓練問題 79
4.3 本章小結 81
4.4 參考資料 82
思考練習題82
第5章 GMM-HMM83
5.1 機率統計 84
5.2 高斯分布 85
5.3 GMM 88
5.3.1 初始化 89
5.3.2 重估計 90
5.4 GMM-HMM 91
5.5 GMM-HMM的訓練 97
5.6 模型自適應 99
5.6.1 MAP99
5.6.2 MLLR 100
5.6.3 fMLLR 100
5.6.4 SAT 101
5.7 本章小結 101
5.8 參考資料 101
思考練習題102
課程實踐:基於HTK搭建GMM-HMM系統 103
第6章 基於HMM的語音識別 104
6.1 建模單元 104
6.2 發音過程與HMM狀態 107
6.3 串接HMM108
6.4 固定語法的識別 112
6.5 隨機語法的識別 117
6.6 本章小結 123
思考練習題124
第7章 音素的上下文建模 125
7.1 協同發音 125
7.2 上下文建模 126
7.3 決策樹 128
7.4 問題集 129
7.4.1 手工設計 129
7.4.2 自動生成 131
7.5 三音子模型的訓練 134
7.6 本章小結 135
思考練習題135
第8章 語言模型 136
8.1 -gram模型138
8.2 評價指標——困惑度 142
8.3 平滑技術 143
8.3.1 Good-Turing折扣法 143
8.3.2 Jelinek-Mercer插值法 144
8.3.3 Kneser-Ney插值法144
8.3.4 Katz回退法 146
8.4 語言模型的訓練 148
8.5 遞歸神經網路語言模型 151
8.6 本章小結 156
8.7 參考資料 156
思考練習題157
第9章 WFST解碼器 158
9.1 基於動態網路的Viterbi解碼 159
9.2 WFST理論 163
9.3 HCLG構建 168
9.3.1 H的構建169
9.3.2 C的構建171
9.3.3 L的構建 172
9.3.4 G的構建173
9.3.5 HCLG合併 175
9.4 WFST的Viterbi解碼177
9.4.1 Token的定義 177
9.4.2 Viterbi算法 178
9.5 Lattice解碼 185
9.5.1 主要數據結構 185
9.5.2 令牌傳播過程 186
9.5.3 剪枝策略 189
9.5.4 Lattice 190
9.6 本章小結 192
9.7 參考資料 192
思考練習題193
第10章 DNN-HMM194
10.1 深度學習 194
10.2 DNN 195
10.2.1 激活函式 196
10.2.2 損失函式 198
10.2.3 梯度下降算法 199
10.3 DNN與HMM的結合 201
10.4 不同的DNN結構 205
10.4.1 CNN 205
10.4.2 LSTM 210
10.4.3 GRU 210
10.4.4 TDNN 211
10.4.5 TDNN-F 214
10.5 本章小結 218
10.6 參考資料 219
思考練習題219
第11章 序列區分性訓練 220
11.1 區分性準則 221
11.1.1 MMI 221
11.1.2 BMMI 222
11.1.3 MPE/sMBR 222
11.2 MMI求導過程223
11.3 Lattice-based MMI 225
11.4 Lattice-free MMI 227
11.5 Kaldi Chain模型 230
11.6 本章小結 231
11.7 參考資料 231
思考練習題232
第12章 端到端語音識別 233
12.1 CTC 234
12.1.1 損失函式 235
12.1.2 前向算法 239
12.1.3 後向算法 242
12.1.4 求導過程 243
12.1.5 CTC解碼 245
12.2 RNN-T 248
12.3 Attention模型251
12.4 Hybrid CTC/Attention 254
12.5 Transformer 256
12.6 本章小結 259
12.7 參考資料 260
思考練習題261
第13章 Kaldi實踐 262
13.1 下載與安裝Kaldi 263
13.1.1 獲取原始碼 263
13.1.2 編譯 264
13.2 創建與配置基本的工程目錄 265
13.3 aishell語音識別工程 266
13.3.1 數據映射目錄準備 267
13.3.2 詞典準備和lang目錄生成 269
13.3.3 語言模型訓練 271
13.3.4 聲學特徵提取與倒譜均值歸一化 273
13.3.5 聲學模型訓練與強制對齊 274
13.3.6 解碼測試與指標計算 277
13.4 本章小結 279
第14章 Espnet實踐 280
14.1 數據準備 280
14.1.1 映射檔案準備 280
14.1.2 特徵提取 281
14.1.3 數據增強 282
14.1.4 詞典生成 282
14.1.5 數據打包 283
14.2 Espnet配置檔案 284
14.3 語言模型訓練 285
14.4 聲學模型訓練 287
14.4.1 聲學模型訓練腳本 287
14.4.2 CTC聲學模型訓練 288
14.4.3 Attention聲學模型訓練 289
14.4.4 RNN-T模型訓練 290
14.4.5 Transformer模型訓練 292
14.5 語音識別解碼 293
14.6 Espnet訓練解碼可視化 294
14.6.1 Espnet訓練參數可視化 294
14.6.2 Espnet中的Attention可視化 295
14.6.3 Espnet解碼結果可視化 296
14.7 本章小結 297
14.8 參考資料 297
第15章 工業套用實踐 298
15.1 動態庫封裝 298
15.1.1 函式接口 298
15.1.2 動態庫編譯 306
15.1.3 動態庫調用 309
15.2 語音雲平台 310
15.3 識別引擎最佳化 315
15.3.1 加快回響速度 315
15.3.2 定製語言模型 316
15.3.3 定製聲學模型 316
15.4 嵌入式移植 318
15.5 本章小結 319

作者簡介

洪青陽,廈門大學副教授,語音識別方向,在國際重要期刊和會議發表學術論文近50篇,已獲得發明專利授權7項,並研發多款語音聲紋產品,成功套用到智慧型手機、智慧型玩具、公安司法、市場調查等行業客戶。2018年3月起,研發的聲紋識別技術先後在華為P20、Mate20手機落地套用。2018年11月,帶領廈門大學xmuspeech團隊在第三屆“東方語言語種識別競賽”獲得第一名。2019年1月,成功研發福建省第一套閩南話語音識別系統、國內第一套閩南話語音合成系統。

相關詞條

熱門詞條

聯絡我們