內容簡介
《深度序列模型與自然語言處理:基於TensorFlow2實踐》以自然語言和語音信號處理兩大套用領域為載體,詳細介紹深度學習中的各種常用序列模型。 在講述理論知識的同時輔以代碼實現和講解,幫助讀者深入掌握相關知識技能。 《深度序列模型與自然語言處理:基於TensorFlow2實踐》共12章,不僅涵蓋了詞向量、循環神經網路、卷積神經網路、Transformer 等基礎知識,還囊括 了注意力機制、序列到序列問題等高級專題,同時還包含其他書籍中較少涉及的預訓練語言模型、生成 對抗網路、強化學習、流模型等前沿內容,以拓寬讀者視野。 《深度序列模型與自然語言處理:基於TensorFlow2實踐》既適合網際網路公司算法工程師等群體閱讀,又可以作為本科高年級或研究生級別的自然語言處 理和深度學習課程的參考教材。
圖書目錄
目 錄
第1章 深度學習與自然語言處理概述1
1.1 自然語言處理簡史 2
1.1.1 自然語言處理能做什麼 2
1.1.2 自然語言處理的發展史 4
1.2 深度學習的興起 6
1.2.1 從機器學習到深度學習 6
1.2.2 深度學習框架 16
1.2.3 TensorFlow 2程式樣例 19
第2章 詞向量的前世今生 21
2.1 文本預處理的流程 22
2.2 前深度學習時代的詞向量 23
2.2.1 獨熱向量 23
2.2.2 分散式表示 24
2.3 深度學習時代的詞向量 26
2.3.1 詞向量的分類 26
2.3.2 可視化詞向量 27
2.3.3 詞向量在下游任務中的使用 29
2.4 Word2vec數學原理 30
2.4.1 語言模型及其評價 30
2.4.2 神經網路機率語言模型 32
2.4.3 Word2vec原理 33
2.5 用TensorFlow實現Word2vec 38
2.5.1 數據準備 38
2.5.2 模型構建及訓練 40
2.5.3 詞向量評估與Gensim實踐 41
第3章 循環神經網路之一: 輸入和輸出 45
3.1 循環神經網路的輸入和輸出 46
3.1.1 循環神經網路的狀態與輸出 46
3.1.2 輸入和輸出一一對應 48
3.1.3 一對多和多對一 49
3.1.4 任意長度的輸入和輸出 50
3.2 區分RNN和RNNCell 51
3.2.1 基類Layer 52
3.2.2 RNNCell接口 53
3.2.3 RNN接口 54
3.3 簡單循環神經網路實例 54
3.4 三種常見的RNN 56
3.4.1 SimpleRNN 57
3.4.2 LSTM 58
3.4.3 GRU 61
3.5 雙向和多層RNN 63
3.5.1 雙向RNN 63
3.5.2 單向多層RNN 65
3.5.3 雙向多層RNN 67
第 4 章 循環神經網路之二:高級 71
4.1 在RNN中使用Dropout 71
4.1.1 全連線層中的Dropout 71
4.1.2 RNN中的Dropout 73
4.2 RNN中的梯度流動 75
4.2.1 時序反向傳播算法 75
4.2.2 LSTM的梯度流 79
4.3 RNN中的歸一化方法 83
4.3.1 批歸一化 84
4.3.2 層歸一化 87
第 5 章 循環神經網路之三: 實戰技巧 92
5.1 序列分類 92
5.1.1 MNIST數字圖像分類 92
5.1.2 變長序列處理與情感分析 94
5.2 超長序列的處理 100
5.2.1 狀態傳遞與數據準備 101
5.2.2 字元級語言模型 104
5.3 序列標註和條件隨機場 110
5.3.1 IOB格式 110
5.3.2 CONLL2003命名實體識別 111
5.3.3 條件隨機場 115
5.4 中間層輸出的提取 119
第 6 章 序列到序列問題 127
6.1 序列到序列問題概述 127
6.1.1 序列到序列問題的兩個代表 127
6.1.2 三種序列到序列模型 128
6.2 CTC 130
6.2.1 CTC 模型結構 131
6.2.2 長短序列的轉換 132
6.2.3 計算標籤序列的機率 133
6.2.4 CTC 的推斷算法 136
6.2.5 CTC的缺陷 139
6.2.6 TensorFlow中的CTC 139
6.3 Transducer 141
6.3.1 Transducer模型結構 141
6.3.2 Transducer的對齊格線 142
6.3.3 Transducer的訓練算法 144
6.3.4 Transducer模型的推斷 145
6.3.5 Transducer的貪心解碼算法 145
6.3.6 Transducer的集束搜尋解碼算法 146
6.4 編碼器-解碼器架構 148
6.4.1 編碼器-解碼器架構簡介 149
6.4.2 編碼器-解碼器架構代碼示例 151
6.4.3 編碼器-解碼器架構的其他套用 153
6.5 文本生成問題的數據處理流程 153
第 7 章 注意力機制 157
7.1 編碼器-解碼器-注意力架構概述 157
7.2 兩種注意力機制的具體實現 160
7.2.1 加性注意力 160
7.2.2 乘性注意力 161
7.2.3 對注意力機制的理解 163
7.3 TensorFlow中的注意力機制 164
7.3.1 熟悉 tfa.seq2seq164
7.3.2 注意力模組的引入 171
7.4 注意力機制的其他套用 179
第 8 章 超越序列表示:樹和圖 181
8.1 自然語言中的樹結構 181
8.2 遞歸神經網路:TreeLSTM 183
8.2.1 遞歸神經網路簡介 183
8.2.2 TreeLSTM 兩例 185
8.2.3 N元樹形LSTM的TensorFlow實現 187
8.3 樹形 LSTM 的其他問題 189
8.3.1 樹形遞歸 189
8.3.2 動態批處理 191
8.3.3 結構反向傳播算法 191
8.3.4 樹形 LSTM 的必要性 192
8.4 圖與自然語言處理 193
8.4.1 LSTM 的其他拓展 193
8.4.2 圖神經網路的套用 195
第 9 章 卷積神經網路 199
9.1 離散卷積的定義 200
9.1.1 卷積的維度 200
9.1.2 卷積的參數 202
9.2 卷積神經網路的兩個實例 204
9.2.1 文本分類與 TextCNN 205
9.2.2 語音合成與 WaveNet 208
第10章 Transformer 219
10.1 Transformer 模型結構介紹 220
10.1.1 注意力層 222
10.1.2 前饋神經網路層 227
10.1.3 殘差連線與層歸一化 228
10.1.4 位置信息的引入 229
10.1.5 Transformer 整體結構 232
10.2 Transformer:實現與思考 233
10.2.1 從零實現 Transformer 233
10.2.2 訓練和推斷 244
10.2.3 關於Transformer模組的反思 249
10.3 Transformer 模型的拓展 253
10.3.1 平方複雜度與顯存最佳化 253
10.3.2 圖靈完備性與歸納偏置 258
10.3.3 非自回歸模型 259
10.4 Transformer與其他模型的聯繫 261
第11章 預訓練語言模型 263
11.1 預訓練語言模型發展簡史 264
11.2 GPT 266
11.2.1 語言模型+精調解決一切問題 266
11.2.2 GPT-2 和 GPT-3:大力出奇蹟 270
11.2.3 GPT系列全回顧 276
11.3 BERT 277
11.3.1 為什麼 GPT 和 ELMo 還不夠好 277
11.3.2 無監督語料知識提取方案 278
11.3.3 在下游任務上精調 BERT 282
11.3.4 BERT 改進方案 284
11.4 後預訓練時代 287
第12章 其他複雜模型 289
12.1 生成對抗網路 289
12.1.1 生成對抗網路簡介 289
12.1.2 生成對抗網路與無監督機器翻譯 293
12.2 強化學習 300
12.2.1 強化學習基本概念 300
12.2.2 策略梯度和 REINFORCE 算法 303
12.2.3 強化學習與文本生成 305
12.3 流模型 309
12.3.1 歸一化流簡介 310
12.3.2 逆自回歸流與並行 WaveNet 312
參考文獻 316
附錄一 插圖 334
附錄二 算法 337
附錄三 術語表 338