TensorFlow語音識別實戰

TensorFlow語音識別實戰

《TensorFlow語音識別實戰》是清華大學出版社出版的圖書。

基本介紹

  • 中文名:TensorFlow語音識別實戰
  • 作者:王曉華
  • 類別:編程開發
  • 出版社:清華大學出版社
  • 出版時間:2021年8月1日
  • 定價:69 元
  • ISBN:9787302584858
內容簡介,目錄,作者簡介,

內容簡介

本書使用新的TensorFlow 2作為語音識別的基本框架,引導讀者入門並掌握基於深度學習的語音識別基本理論、概念以及實現實際項目。全書內容循序漸進,從搭建環境開始,逐步深入理論、代碼及套用實踐。
本書分為10章,內容包括語音識別概況與開發環境搭建、TensorFlow和Keras、深度學習的理論基礎、卷積層與MNIST實戰、TensorFlow Datasets和TensorBoard詳解、ResNet模型、使用循環神經網路的語音識別實戰、有趣的詞嵌入實戰、語音識別中的轉換器實戰、語音漢字轉換實戰。
本書內容詳盡、示例豐富,適合作為語音識別和深度學習初學者必備的參考書,同時非常適合作為高等院校和培訓機構人工智慧及相關專業師生的參考教材。

目錄

第1章 語音識別之路 1
1.1 何謂語音識別 1
1.2 語音識別為什麼難——語音識別的發展歷程 2
1.2.1 高斯混合-隱馬爾科夫時代 3
1.2.2 循環神經網路-隱馬爾科夫時代 4
1.2.3 基於深度學習的端到端語音識別時代 5
1.3 語音識別商業化之路的三個關鍵節點 5
1.4 語音識別的核心技術與行業發展趨勢 7
1.5 搭建環境1:安裝Python 8
1.5.1 Anaconda的下載與安裝 8
1.5.2 Python編譯器PyCharm的安裝 11
1.5.3 使用Python計算softmax函式 14
1.6 搭建環境2:安裝TensorFlow 2.1 15
1.6.1 安裝TensorFlow 2.1的CPU版本 15
1.6.2 安裝TensorFlow 2.1的GPU版本 15
1.6.3 練習——Hello TensorFlow 18
1.7 實戰——基於特徵詞的語音喚醒 19
1.7.1 第一步:數據的準備 19
1.7.2 第二步:數據的處理 20
1.7.3 第三步:模型的設計 21
1.7.4 第四步:模型的數據輸入方法 22
1.7.5 第五步:模型的訓練 24
1.7.6 第六步:模型的結果和展示 25
1.8 本章小結 25
第2章 TensorFlow和Keras 26
2.1 TensorFlow和Keras 26
2.1.1 模型 27
2.1.2 使用Keras API實現鳶尾花分類(順序模式) 27
2.1.3 使用Keras函式式編程實現鳶尾花分類(重點) 30
2.1.4 使用保存的Keras模式對模型進行復用 33
2.1.5 使用TensorFlow標準化編譯對iris模型進行擬合 34
2.1.6 多輸入單一輸出TensorFlow 編譯方法(選學) 38
2.1.7 多輸入多輸出TensorFlow 編譯方法(選學) 41
2.2 全連線層詳解 43
2.2.1 全連線層的定義與實現 43
2.2.2 使用TensorFlow自帶的API實現全連線層 44
2.2.3 列印顯示已設計的Model結構和參數 48
2.3 懶人的福音——Keras模型庫 49
2.3.1 ResNet50模型和參數的載入 50
2.3.2 使用ResNet50作為特徵提取層建立模型 52
2.4 本章小結 54
第3章 深度學習的理論基礎 55
3.1 BP神經網路簡介 55
3.2 BP神經網路兩個基礎算法詳解 59
3.2.1 最小二乘法詳解 59
3.2.2 道士下山的故事:梯度下降算法 61
3.3 反饋神經網路反向傳播算法 63
3.3.1 深度學習基礎 64
3.3.2 鏈式求導法則 65
3.3.3 反饋神經網路原理與公式推導 66
3.3.4 反饋神經網路的激活函式 71
3.3.5 反饋神經網路的Python實現 72
3.4 本章小結 76
第4章 卷積層與MNIST實戰 77
4.1 卷積運算的基本概念 77
4.1.1 卷積運算 78
4.1.2 TensorFlow中卷積函式實現詳解 79
4.1.3 池化運算 82
4.1.4 softmax激活函式 83
4.1.5 卷積神經網路原理 84
4.2 編程實戰:MNIST手寫體識別 86
4.2.1 MNIST數據集 86
4.2.2 MNIST數據集特徵和標籤介紹 88
4.2.3 TensorFlow 2.X編程實戰:MNIST數據集 90
4.2.4 使用自定義的卷積層實現MNIST識別 95
4.3 本章小結 98
第5章 TensorFlow Datasets和TensorBoard詳解 99
5.1 TensorFlow Datasets簡介 99
5.1.1 Datasets數據集的安裝 101
5.1.2 Datasets數據集的使用 101
5.2 Datasets數據集的使用——FashionMNIST 103
5.2.1 FashionMNIST數據集下載與展示 104
5.2.2 模型的建立與訓練 106
5.3 使用Keras對FashionMNIST數據集進行處理 108
5.3.1 獲取數據集 108
5.3.2 數據集的調整 109
5.3.3 使用Python類函式建立模型 109
5.3.4 Model的查看和參數列印 111
5.3.5 模型的訓練和評估 112
5.4 使用TensorBoard可視化訓練過程 114
5.4.1 TensorBoard資料夾的設定 115
5.4.2 TensorBoard的顯式調用 115
5.4.3 TensorBoard的使用 118
5.5 本章小結 121
第6章 從冠軍開始:ResNet 122
6.1 ResNet基礎原理與程式設計基礎 123
6.1.1 ResNet誕生的背景 123
6.1.2 模組工具的TensorFlow實現——不要重複造輪子 126
6.1.3 TensorFlow高級模組layers用法簡介 126
6.2 ResNet實戰:CIFAR-100數據集分類 134
6.2.1 CIFAR-100數據集簡介 134
6.2.2 ResNet殘差模組的實現 136
6.2.3 ResNet網路的實現 139
6.2.4 使用ResNet對CIFAR-100數據集進行分類 142
6.3 ResNet的兄弟——ResNeXt 143
6.3.1 ResNeXt誕生的背景 143
6.3.2 ResNeXt殘差模組的實現 145
6.3.3 ResNeXt網路的實現 146
6.3.4 ResNeXt和ResNet的比較 148
6.4 本章小結 149
第7章 使用循環神經網路的語音識別實戰 150
7.1 使用循環神經網路的語音識別 150
7.2 長短期記憶網路 151
7.2.1 Hochreiter、Schmidhuber和LSTM 152
7.2.2 循環神經網路與長短時間序列 153
7.2.3 LSTM的處理單元詳解 154
7.2.4 LSTM的研究發展 157
7.2.5 LSTM的套用前景 158
7.3 GRU層詳解 159
7.3.1 TensorFlow中的GRU層詳解 160
7.3.2 單向不行,那就雙向 160
7.4 站在巨人肩膀上的語音識別 161
7.4.1 使用TensorFlow自帶的模型進行文本分類 162
7.4.2 用VGGNET替換ResNet是否可行 164
7.5 本章小結 165
第8章 梅西-阿根廷+義大利=?:有趣的詞嵌入實戰 166
8.1 文本數據處理 167
8.1.1 數據集介紹和數據清洗 167
8.1.2 停用詞的使用 169
8.1.3 詞向量訓練模型Word2Vec使用介紹 172
8.1.4 文本主題的提取:基於TF-IDF(選學) 175
8.1.5 文本主題的提取:基於TextRank(選學) 179
8.2 更多的Word Embedding方法——fastText和預訓練詞向量 181
8.2.1 fastText的原理與基礎算法 182
8.2.2 fastText訓練以及與TensorFlow 2.X的協同使用 183
8.2.3 使用其他預訓練參數做TensorFlow詞嵌入矩陣(中文) 189
8.3 針對文本的卷積神經網路模型:字元卷積 191
8.3.1 字元(非單詞)文本的處理 191
8.3.2 卷積神經網路文本分類模型的實現:conv1d(一維卷積) 199
8.4 針對文本的卷積神經網路模型:詞卷積 200
8.4.1 單詞的文本處理 201
8.4.2 卷積神經網路文本分類模型的實現:conv2d(二維卷積) 203
8.5 使用卷積對文本分類的補充內容 206
8.5.1 漢字的文本處理 207
8.5.2 其他的一些細節 209
8.6 本章小結 210
第9章 從拼音到漢字——語音識別中的轉換器 211
9.1 編碼器的核心:注意力模型 212
9.1.1 輸入層——初始詞向量層和位置編碼器層 212
9.1.2 自注意力層(重點) 214
9.1.3 ticks和LayerNormalization 218
9.1.4 多頭自注意力 219
9.2 構建編碼器架構 222
9.2.1 前饋層的實現 223
9.2.2 編碼器的實現 224
9.3 實戰編碼器——漢字拼音轉化模型 228
9.3.1 漢字拼音數據集處理 228
9.3.2 漢字拼音轉化模型的確定 230
9.3.3 模型訓練部分的編寫 234
9.3.4 推斷函式的編寫 235
9.4 本章小結 237
第10章 實戰——基於MFCC和CTC的語音漢字轉換 238
10.1 語音識別的理論基礎1——MFCC 238
10.2 語音識別的理論基礎2——CTC 245
10.3 實戰——語音漢字轉換 247
10.3.1 數據集THCHS-30簡介 247
10.3.2 數據集的提取與轉化 248
10.4 本章小結 256

作者簡介

王曉華,計算機專業講師,長期講授面向對象程式設計、數據結構、Hadoop程式設計等研究生和本科生相關課程;主要研究方向為雲計算、數據挖掘。曾主持和參與多項國家和省級科研課題,獨立科研項目獲省級成果認定,發表過多篇論文,擁有一項國家專利。著有《Spark MLlib機器學習實踐》《TensorFlow深度學習套用實踐》《OpenCV+TensorFlow深度學習與計算機視覺實戰》《TensorFlow 2.0卷積神經網路實戰》《TensorFlow+Keras自然語言處理實戰》等圖書。

相關詞條

熱門詞條

聯絡我們