深度學習:語音識別技術實踐

深度學習:語音識別技術實踐

《深度學習:語音識別技術實踐》是2019年清華大學出版社出版的圖書,作者是柳若邊。

基本介紹

  • 中文名:深度學習:語音識別技術實踐
  • 作者:柳若邊
  • 類別:圖書
  • 出版社:清華大學出版社
  • 出版時間:2019年04月01日
  • 定價:89 元
  • ISBN:9787302516927
內容簡介,目錄,

內容簡介

語音識別已經逐漸進入人們的日常生活。語音識別技術是涉及語言、計算機、數學等領域的交叉學科。《深度學習:語音識別技術實踐》介紹了包括C#、Perl、Python、Java在內的多種程式語言實踐,開源語音識別工具包Kaldi的使用與代碼分析,深度學習的開發環境搭建,卷積神經網路,以及語音識別中常見的語言模型——N元模型和依存模型等,讓讀者快速了解語音識別基礎,掌握開發語音識別程式的算法。 《深度學習:語音識別技術實踐》從語音識別的基礎開始講起,並輔以翔實的案例,既適合需要具體實現語音識別的程式設計師使用,也適合有一定機器學習或語音識別基礎的學生、研究者或從業者閱讀。

目錄

第1章 語音識別技術 1
1.1 總體結構 1
1.2 Linux基礎 2
1.3 安裝Micro編輯器 4
1.4 安裝Kaldi 5
1.5 yesno例子 6
1.5.1 數據準備 7
1.5.2 詞典準備 8
1.6 構建一個簡單的ASR 12
1.7 Voxforge例子 21
1.8 數據準備 23
1.9 加權有限狀態轉換 34
1.9.1 FSA 35
1.9.2 FST 35
1.9.3 WFST 37
1.9.4 Kaldi對OpenFst的改進 38
1.10 語音識別語料庫 39
1.10.1 TIMIT語料庫 39
1.10.2 LibriSpeech語料庫 40
1.10.3 中文語料庫 40
1.11 Linux shell腳本基礎 40
1.11.1 Bash 41
1.11.2 AWK 44
第2章 C#開發語音識別 46
2.1 準備開發環境 46
2.2 計算卷積 47
2.3 記錄語音 48
2.4 讀入語音信號 52
2.6 移除靜音 54
第3章 Perl開發語音識別 58
3.1 變數 58
3.1.1 數字 58
3.1.2 字元串 59
3.1.3 數組 60
3.1.4 散列表 60
3.2 多維數組 62
3.3 常量 62
3.4 操作符 63
3.5 控制流 66
3.6 檔案與目錄 67
3.7 例程 68
3.8執行命令 69
3.9正則表達式 69
3.9.1基本類型 69
3.9.2正則表達式模式 70
第4章 Python開發語音識別 73
4.1Windows作業系統下安裝Python 73
4.2Linux作業系統下安裝Python 75
4.3選擇版本 76
4.4開發環境 76
4.5注釋 77
4.6變數 77
4.6.1數值 77
4.6.2字元串 79
4.7數組 80
4.8列表 80
4.9元組 80
4.10字典 81
4.11控制流 81
4.11.1條件判斷 81
4.11.2循環 82
4.12模組 83
4.13函式 84
4.14讀寫檔案 86
4.15面向對象編程 87
4.17資料庫 90
4.18日誌記錄 90
4.19異常處理 92
4.20測試 92
4.21語音活動檢測 93
4.22使用numpy 93
第5章 Java開發語音識別 94
5.1實現卷積 95
5.2KaldiJava 96
5.2.1使用Ant 97
5.2.2使用Maven 99
5.2.3使用Gradle 100
5.3TensorFlow的Java接口 104
5.3.1在Windows作業系統下使用TensorFlow 104
5.3.2在Linux作業系統下使用TensorFlow 106
第6章 語音信號處理 109
6.1使用FFmpeg 109
6.2標註語音 110
6.3時間序列 112
6.4 端點檢測 113
6.6傅立葉變換 117
6.7MFCC特徵 124
6.8說話者識別 125
6.9解碼 125
第7章 深度學習 132
7.1神經網路基礎 132
7.1.1實現多層感知器 135
7.1.2計算過程 143
7.3搭建深度學習開發環境 156
7.3.1使用Cygwin模擬環境 156
7.3.2使用CMake 157
7.3.3使用Keras 158
7.3.4安裝TensorFlow 161
7.3.5安裝TensorFlow的Docker容器 162
7.3.6使用TensorFlow 164
7.3.7一維卷積 208
7.3.8二維卷積 210
7.3.9擴張卷積 213
7.3.10TensorFlow實現簡單的語音識別 214
7.4nnet3實現代碼 216
7.4.1數據類型 217
7.4.2基本數據結構 219
7.5編譯Kaldi 230
7.6端到端深度學習 232
7.7Dropout解決過度擬合問題 232
7.8矩陣運算 235
第8章 語言模型 238
8.1機率語言模型 238
8.1.1一元模型 240
8.1.2數據基礎 240
8.1.3改進一元模型 249
8.1.4二元詞典 251
8.1.5完全二叉樹數組 257
8.1.6三元詞典 261
8.1.7N元模型 262
8.1.8生成語言模型 264
8.1.9評估語言模型 265
8.1.10平滑算法 266
8.2KenLM語言模型工具包 271
8.3ARPA檔案格式 275
8.4依存語言模型 278

相關詞條

熱門詞條

聯絡我們