解析深度學習：語音識別實踐:內容簡介,圖書目錄,

《解析深度學習：語音識別實踐》是2016年6月電子工業出版社出版的圖書，作者是俞棟和鄧力。

基本介紹

中文名：解析深度學習：語音識別實踐
作者：俞棟、鄧力
出版社：電子工業出版社
出版時間：2016年6月
頁數：336 頁
定價：79 元
開本：16 開
ISBN：9787121287961
字數：378千

內容簡介,圖書目錄,

內容簡介

本書是首部介紹語音識別中深度學習技術細節的專著。全書首先概要介紹了傳統語音識別理論和經典的深度神經網路核心算法。接著全面而深入地介紹了深度學習在語音識別中的套用，包括“深度神經網路-隱馬爾可夫混合模型”的訓練和最佳化，特徵表示學習、模型融合、自適應，以及以循環神經網路為代表的若干先進深度學習技術。本書適合有一定機器學習或語音識別基礎的學生、研究者或從業者閱讀，所有的算法及技術細節都提供了詳盡的參考文獻，給出了深度學習在語音識別中套用的全景。

圖書目錄

譯者序 iv

序 vii

前言 ix

術語縮寫 xxii

符號 xxvii

第 1 章簡介 1

1.1 自動語音識別：更好的溝通之橋 . . . . . . . . . . . . . . . . . . . . . . . 1

1.1.1 人類之間的交流 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

1.1.2 人機交流 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

1.2 語音識別系統的基本結構 . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

1.3 全書結構 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

1.3.1 第一部分：傳統聲學模型 . . . . . . . . . . . . . . . . . . . . . . 6

1.3.2 第二部分：深度神經網路 . . . . . . . . . . . . . . . . . . . . . . 6

1.3.3 第三部分：語音識別中的 DNN-HMM 混合系統 . . . . . . . . . . 7

1.3.4 第四部分：深度神經網路中的表征學習 . . . . . . . . . . . . . . 7

1.3.5 第五部分：高級的深度模型 . . . . . . . . . . . . . . . . . . . . . 7

第一部分傳統聲學模型 9

第 2 章混合高斯模型 11

2.1 隨機變數 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

2.2 高斯分布和混合高斯隨機變數 . . . . . . . . . . . . . . . . . . . . . . . . 12

2.3 參數估計 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

2.4 採用混合高斯分布對語音特徵建模 . . . . . . . . . . . . . . . . . . . . . 16

第 3 章隱馬爾可夫模型及其變體 19

3.1 介紹 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

3.2 馬爾可夫鏈 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

3.3 序列與模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

3.3.1 隱馬爾可夫模型的性質 . . . . . . . . . . . . . . . . . . . . . . . . 23

3.3.2 隱馬爾可夫模型的仿真 . . . . . . . . . . . . . . . . . . . . . . . . 24

3.3.3 隱馬爾可夫模型似然度的計算 . . . . . . . . . . . . . . . . . . . . 24

3.3.4 計算似然度的高效算法 . . . . . . . . . . . . . . . . . . . . . . . . 26

3.3.5 前向與後向遞歸式的證明 . . . . . . . . . . . . . . . . . . . . . . 27

3.4 期望最大化算法及其在學習 HMM 參數中的套用 . . . . . . . . . . . . . 28

3.4.1 期望最大化算法介紹 . . . . . . . . . . . . . . . . . . . . . . . . . 28

3.4.2 使用 EM 算法來學習 HMM 參數——Baum-Welch 算法 . . . . . . 30

3.5 用於解碼 HMM 狀態序列的維特比算法 . . . . . . . . . . . . . . . . . . . 34

3.5.1 動態規劃和維特比算法 . . . . . . . . . . . . . . . . . . . . . . . . 34

3.5.2 用於解碼 HMM 狀態的動態規划算法 . . . . . . . . . . . . . . . . 35

3.6 隱馬爾可夫模型和生成語音識別模型的變體 . . . . . . . . . . . . . . . . 37

3.6.1 用於語音識別的 GMM-HMM 模型 . . . . . . . . . . . . . . . . . 38

3.6.2 基於軌跡和隱藏動態模型的語音建模和識別 . . . . . . . . . . . . 39

3.6.3 使用生成模型 HMM 及其變體解決語音識別問題 . . . . . . . . . 40

第二部分深度神經網路 43

第 4 章深度神經網路 45

4.1 深度神經網路框架 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

4.2 使用誤差反向傳播來進行參數訓練 . . . . . . . . . . . . . . . . . . . . . 48

4.2.1 訓練準則 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

4.2.2 訓練算法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

4.3 實際套用 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

4.3.1 數據預處理 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

4.3.2 模型初始化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

4.3.3 權重衰減 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

4.3.4 丟棄法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

4.3.5 批量塊大小的選擇 . . . . . . . . . . . . . . . . . . . . . . . . . . 58

4.3.6 取樣隨機化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

4.3.7 慣性係數 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60

4.3.8 學習率和停止準則 . . . . . . . . . . . . . . . . . . . . . . . . . . 61

4.3.9 網路結構 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

4.3.10 可復現性與可重啟性 . . . . . . . . . . . . . . . . . . . . . . . . . 62

第 5 章高級模型初始化技術 65

5.1 受限玻爾茲曼機 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

5.1.1 受限玻爾茲曼機的屬性 . . . . . . . . . . . . . . . . . . . . . . . . 67

5.1.2 受限玻爾茲曼機參數學習 . . . . . . . . . . . . . . . . . . . . . . 70

5.2 深度置信網路預訓練 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73

5.3 降噪自動編碼器預訓練 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

5.4 鑑別性預訓練 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78

5.5 混合預訓練 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78

5.6 採用丟棄法的預訓練 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79

第三部分語音識別中的深度神經網路–隱馬爾可夫混合模型 81

第 6 章深度神經網路–隱馬爾可夫模型混合系統 83

6.1 DNN-HMM 混合系統 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83

6.1.1 結構 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83

6.1.2 用 CD-DNN-HMM 解碼 . . . . . . . . . . . . . . . . . . . . . . . . 85

6.1.3 CD-DNN-HMM 訓練過程 . . . . . . . . . . . . . . . . . . . . . . . 86

6.1.4 上下文視窗的影響 . . . . . . . . . . . . . . . . . . . . . . . . . . 88

6.2 CD-DNN-HMM 的關鍵模組及分析 . . . . . . . . . . . . . . . . . . . . . 90

6.2.1 進行比較和分析的數據集和實驗 . . . . . . . . . . . . . . . . . . 90

6.2.2 對單音素或者三音素的狀態進行建模 . . . . . . . . . . . . . . . . 92

6.2.3 越深越好 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93

6.2.4 利用相鄰的語音幀 . . . . . . . . . . . . . . . . . . . . . . . . . . 94

6.2.5 預訓練 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95

6.2.6 訓練數據的標註質量的影響 . . . . . . . . . . . . . . . . . . . . . 95

6.2.7 調整轉移機率 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96

6.3 基於 KL 距離的隱馬爾可夫模型 . . . . . . . . . . . . . . . . . . . . . . . 96

第 7 章訓練和解碼的加速 99

7.1 訓練加速 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99

7.1.1 使用多 GPU 流水線反向傳播 . . . . . . . . . . . . . . . . . . . . 100

7.1.2 異步隨機梯度下降 . . . . . . . . . . . . . . . . . . . . . . . . . . 103

7.1.3 增廣拉格朗日算法及乘子方向交替算法 . . . . . . . . . . . . . . 106

7.1.4 減小模型規模 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107

7.1.5 其他方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108

7.2 加速解碼 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109

7.2.1 並行計算 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109

7.2.2 稀疏網路 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111

7.2.3 低秩近似 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113

7.2.4 用大尺寸 DNN 訓練小尺寸 DNN . . . . . . . . . . . . . . . . . . 114

7.2.5 多幀 DNN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115

第 8 章深度神經網路序列鑑別性訓練 117

8.1 序列鑑別性訓練準則 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117

8.1.1 最大相互信息 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118

8.1.2 增強型 MMI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119

8.1.3 最小音素錯誤/狀態級最小貝葉斯風險 . . . . . . . . . . . . . . . 120

8.1.4 統一的公式 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121

8.2 具體實現中的考量 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122

8.2.1 詞圖產生 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122

8.2.2 詞圖補償 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123

8.2.3 幀平滑 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125

8.2.4 學習率調整 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125

8.2.5 訓練準則選擇 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126

8.2.6 其他考量 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126

8.3 噪聲對比估計 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127

8.3.1 將機率密度估計問題轉換為二分類設計問題 . . . . . . . . . . . . 127

8.3.2 拓展到未歸一化的模型 . . . . . . . . . . . . . . . . . . . . . . . . 129

8.3.3 在深度學習網路訓練中套用噪聲對比估計算法 . . . . . . . . . . 130

第四部分深度神經網路中的特徵表示學習 133

第 9 章深度神經網路中的特徵表示學習 135

9.1 特徵和分類器的聯合學習 . . . . . . . . . . . . . . . . . . . . . . . . . . . 135

9.2 特徵層級 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136

9.3 使用隨意輸入特徵的靈活性 . . . . . . . . . . . . . . . . . . . . . . . . . 140

9.4 特徵的魯棒性 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141

9.4.1 對說話人變化的魯棒性 . . . . . . . . . . . . . . . . . . . . . . . . 141

9.4.2 對環境變化的魯棒性 . . . . . . . . . . . . . . . . . . . . . . . . . 142

9.5 對環境的魯棒性 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144

9.5.1 對噪聲的魯棒性 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145

9.5.2 對語速變化的魯棒性 . . . . . . . . . . . . . . . . . . . . . . . . . 147

9.6 缺乏嚴重信號失真情況下的推廣能力 . . . . . . . . . . . . . . . . . . . . 148

第 10 章深度神經網路和混合高斯模型的融合 151

10.1 在 GMM-HMM 系統中使用由 DNN 衍生的特徵 . . . . . . . . . . . . . . 151

10.1.1 使用 Tandem 和瓶頸特徵的 GMM-HMM 模型 . . . . . . . . . . . 151

10.1.2 DNN-HMM 混合系統與採用深度特徵的 GMM-HMM 系統的比較 154

10.2 識別結果融合技術 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156

10.2.1 識別錯誤票選降低技術（ ROVER） . . . . . . . . . . . . . . . . . 157

10.2.2 分段條件隨機場（ SCARF） . . . . . . . . . . . . . . . . . . . . . 159

10.2.3 最小貝葉斯風險詞圖融合 . . . . . . . . . . . . . . . . . . . . . . 160

10.3 幀級別的聲學分數融合 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160

10.4 多流語音識別 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161

第 11 章深度神經網路的自適應技術 165

11.1 深度神經網路中的自適應問題 . . . . . . . . . . . . . . . . . . . . . . . . 165

11.2 線性變換 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167

11.2.1 線性輸入網路 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167

11.2.2 線性輸出網路 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167

11.3 線性隱層網路 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169

11.4 保守訓練 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170

11.4.1 L 2 正則項 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171

11.4.2 KL 距離正則項 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171

11.4.3 減少每個說話人的模型開銷 . . . . . . . . . . . . . . . . . . . . . 173

11.5 子空間方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175

11.5.1 通過主成分分析構建子空間 . . . . . . . . . . . . . . . . . . . . . 175

11.5.2 噪聲感知、說話人感知及設備感知訓練 . . . . . . . . . . . . . . 176

11.5.3 張量 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 180

11.6 DNN 說話人自適應的效果 . . . . . . . . . . . . . . . . . . . . . . . . . . 181

11.6.1 基於 KL 距離的正則化方法 . . . . . . . . . . . . . . . . . . . . . 181

11.6.2 說話人感知訓練 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183

第五部分先進的深度學習模型 185

第 12 章深度神經網路中的表征共享和遷移 187

12.1 多任務和遷移學習 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 187

12.1.1 多任務學習 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 187

12.1.2 遷移學習 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189

12.2 多語言和跨語言語音識別 . . . . . . . . . . . . . . . . . . . . . . . . . . . 189

12.2.1 基於 Tandem 或瓶頸特徵的跨語言語音識別 . . . . . . . . . . . . 190

12.2.2 共享隱層的多語言深度神經網路 . . . . . . . . . . . . . . . . . . 191

12.2.3 跨語言模型遷移 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 194

12.3 語音識別中深度神經網路的多目標學習 . . . . . . . . . . . . . . . . . . . 197

12.3.1 使用多任務學習的魯棒語音識別 . . . . . . . . . . . . . . . . . . 197

12.3.2 使用多任務學習改善音素識別 . . . . . . . . . . . . . . . . . . . . 198

12.3.3 同時識別音素和字素（ graphemes） . . . . . . . . . . . . . . . . . 199

12.4 使用視聽信息的魯棒語音識別 . . . . . . . . . . . . . . . . . . . . . . . . 199

第 13 章循環神經網路及相關模型 201

13.1 介紹 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201

13.2 基本循環神經網路中的狀態-空間公式 . . . . . . . . . . . . . . . . . . . . 203

13.3 沿時反向傳播學習算法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 204

13.3.1 最小化目標函式 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205

13.3.2 誤差項的遞歸計算 . . . . . . . . . . . . . . . . . . . . . . . . . . 205

13.3.3 循環神經網路權重的更新 . . . . . . . . . . . . . . . . . . . . . . 206

13.4 一種用於學習循環神經網路的原始對偶技術 . . . . . . . . . . . . . . . . 208

13.4.1 循環神經網路學習的難點 . . . . . . . . . . . . . . . . . . . . . . 208

13.4.2 回聲狀態（ Echo-State）性質及其充分條件 . . . . . . . . . . . . . 208

13.4.3 將循環神經網路的學習轉化為帶約束的最佳化問題 . . . . . . . . . 209

13.4.4 一種用於學習 RNN 的原始對偶方法 . . . . . . . . . . . . . . . . 210

13.5 結合長短時記憶單元（ LSTM）的循環神經網路 . . . . . . . . . . . . . . 212

13.5.1 動機與套用 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212

13.5.2 長短時記憶單元的神經元架構 . . . . . . . . . . . . . . . . . . . . 213

13.5.3 LSTM-RNN 的訓練 . . . . . . . . . . . . . . . . . . . . . . . . . . 214

13.6 循環神經網路的對比分析 . . . . . . . . . . . . . . . . . . . . . . . . . . . 214

13.6.1 信息流方向的對比：自上而下還是自下而上 . . . . . . . . . . . . 215

13.6.2 信息表征的對比：集中式還是分散式 . . . . . . . . . . . . . . . . 217

13.6.3 解釋能力的對比：隱含層推斷還是端到端學習 . . . . . . . . . . 218

13.6.4 參數化方式的對比：吝嗇參數集合還是大規模參數矩陣 . . . . . 218

13.6.5 模型學習方法的對比：變分推理還是梯度下降 . . . . . . . . . . 219

13.6.6 識別正確率的比較 . . . . . . . . . . . . . . . . . . . . . . . . . . 220

13.7 討論 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 221

第 14 章計算型網路 223

14.1 計算型網路 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223

14.2 前向計算 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 224

14.3 模型訓練 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 227

14.4 典型的計算節點 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 231

14.4.1 無運算元的計算節點 . . . . . . . . . . . . . . . . . . . . . . . . . 232

14.4.2 含一個運算元的計算節點 . . . . . . . . . . . . . . . . . . . . . . 232

14.4.3 含兩個運算元的計算節點 . . . . . . . . . . . . . . . . . . . . . . 237

14.4.4 用來計算統計量的計算節點類型 . . . . . . . . . . . . . . . . . . 244

14.5 卷積神經網路 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 245

14.6 循環連線 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 248

14.6.1 只在循環中一個接一個地處理樣本 . . . . . . . . . . . . . . . . . 249

14.6.2 同時處理多個句子 . . . . . . . . . . . . . . . . . . . . . . . . . . 251

14.6.3 創建任意的循環神經網路 . . . . . . . . . . . . . . . . . . . . . . 252

第 15 章總結及未來研究方向 255

15.1 路線圖 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 255

15.1.1 語音識別中的深度神經網路啟蒙 . . . . . . . . . . . . . . . . . . 255

15.1.2 深度神經網路訓練和解碼加速 . . . . . . . . . . . . . . . . . . . . 258

15.1.3 序列鑑別性訓練 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 258

15.1.4 特徵處理 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 259

15.1.5 自適應 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 260

15.1.6 多任務和遷移學習 . . . . . . . . . . . . . . . . . . . . . . . . . . 261

15.1.7 卷積神經網路 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 261

15.1.8 循環神經網路和長短時記憶神經網路 . . . . . . . . . . . . . . . . 261

15.1.9 其他深度模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 262

15.2 技術前沿和未來方向 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 262

15.2.1 技術前沿簡析 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 262

15.2.2 未來方向 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263

參考文獻 267

解析深度學習：語音識別實踐

基本介紹

內容簡介

圖書目錄

相關詞條

熱門詞條