內容簡介
作為邱錫鵬老師出品的《神經網路與深度學習》配套案例,與《神經網路與深度學習》深度融合,從實踐角度詮釋原書理論內容。
圖書目錄
序
前言
第1章實踐基礎1
1.1如何運行本書的代碼...................................2
1.1.1本地運行.....................................2
1.1.2代碼下載與使用方法..............................3
1.1.3線上運行.....................................4
1.2張量............................................6
1.2.1創建張量.....................................6
1.2.2張量的屬性....................................9
1.2.3張量與Numpy數組轉換............................13
1.2.4張量的訪問....................................13
1.2.5張量的運算....................................16
1.3運算元............................................20
1.3.1運算元定義.....................................21
1.3.2自動微分機制..................................25
1.3.3預定義的運算元..................................27
1.3.4本書中實現的運算元................................27
1.3.5本書中實現的最佳化器..............................29
1.4本書中使用的數據集和實現的Dataset類........................29
1.4.1數據集......................................29
1.4.2Dataset類....................................31
1.5本書中實現的Runner類.................................31
1.6小結............................................32
第2章機器學習概述33
2.1機器學習實踐五要素...................................34
2.1.1數據........................................35
2.1.2模型........................................36
2.1.3學習準則.....................................36
2.1.4最佳化算法.....................................37
2.1.5評價指標.....................................37
2.2實現一個簡單的線性回歸模型..............................38
2.2.1數據集構建....................................38
2.2.2模型構建.....................................40
2.2.3損失函式.....................................42
2.2.4最佳化器......................................43
2.2.5模型訓練.....................................45
2.2.6模型評價.....................................45
2.3多項式回歸........................................46
2.3.1數據集構建:ToySin25..............................46
2.3.2模型構建.....................................48
2.3.3模型訓練.....................................49
2.3.4模型評價.....................................50
2.3.5通過引入正則化項來緩解過擬合........................52
2.4構建Runner類......................................53
2.5實踐:基於線性回歸的波士頓房價預測.........................55
2.5.1數據處理.....................................55
2.5.2模型構建.....................................62
2.5.3完善Runner類:RunnerV1...........................62
2.5.4模型訓練.....................................63
2.5.5模型評價.....................................64
2.5.6模型預測.....................................64
2.6小結............................................65
第3章線性分類67
3.1基於Logistic回歸的二分類任務.............................68
3.1.1數據集構建....................................69
3.1.2模型構建.....................................71
3.1.3損失函式.....................................73
3.1.4模型最佳化.....................................74
3.1.5評價指標.....................................77
3.1.6完善Runner類:RunnerV2...........................77
3.1.7模型訓練.....................................80
3.1.8模型評價.....................................82
3.2基於Softmax回歸的多分類任務............................82
3.2.1數據集構建....................................83
3.2.2模型構建.....................................86
3.2.3損失函式.....................................88
第3章線性分類67
3.1基於Logistic回歸的二分類任務.............................68
3.1.1數據集構建....................................69
3.1.2模型構建.....................................71
3.1.3損失函式.....................................73
3.1.4模型最佳化.....................................74
3.1.5評價指標.....................................77
3.1.6完善Runner類:RunnerV2...........................77
3.1.7模型訓練.....................................80
3.1.8模型評價.....................................82
3.2基於Softmax回歸的多分類任務............................82
3.2.1數據集構建....................................83
3.2.2模型構建.....................................86
3.2.3損失函式.....................................88
3.2.4模型最佳化.....................................89
3.2.5模型訓練.....................................91
3.2.6模型評價.....................................92
3.3實踐:基於Softmax回歸完成鳶尾花分類任務.....................92
3.3.1數據處理.....................................93
3.3.2模型構建.....................................95
3.3.3模型訓練.....................................96
3.3.4模型評價.....................................96
3.3.5模型預測.....................................97
3.4小結............................................97
第4章前饋神經網路994.1神經元...........................................99
4.1.1淨活性值.....................................100
4.1.2激活函式.....................................101
4.2基於前饋神經網路的二分類任務............................104
4.2.1數據集構建....................................105
4.2.2模型構建.....................................105
4.2.3損失函式.....................................108
4.2.4模型最佳化.....................................109
4.2.5完善Runner類:RunnerV2_1..........................115
4.2.6模型訓練.....................................117
4.2.7模型評價.....................................118
4.3自動梯度計算和預定義運算元...............................119
4.3.1利用預定義運算元重新實現前饋神經網路....................119
4.3.2完善Runner類:RunnerV2_2..........................120
4.3.3模型訓練.....................................122
4.3.4模型評價.....................................124
4.4最佳化問題.........................................124
4.4.1參數初始化....................................124
4.4.2梯度消失問題..................................126
4.4.3死亡ReLU問題.................................129
4.5實踐:基於前饋神經網路完成鳶尾花分類任務.....................130
4.5.1小批量梯度下降法................................130
4.5.2數據處理.....................................132
4.5.3模型構建.....................................133
4.5.4完善Runner類:RunnerV3...........................135
4.5.5模型訓練.....................................140
4.5.6模型評價.....................................142
4.5.7模型預測.....................................142
第5章卷積神經網路145
5.1卷積............................................146
5.1.1二維卷積運算..................................146
5.1.2二維卷積運算元..................................147
5.1.3卷積的變種....................................148
5.1.4帶步長和零填充的二維卷積運算元........................149
5.1.5使用卷積運算完成圖像邊緣檢測任務.....................151
5.2卷積神經網路的基礎運算元................................152
5.2.1卷積層運算元....................................152
5.2.2匯聚層運算元....................................156
5.3基於LeNet實現手寫體數字識別任務..........................157
5.3.1數據集構建....................................158
5.3.2模型構建.....................................161
5.3.3模型訓練.....................................164
5.3.4模型評價.....................................165
5.3.5模型預測.....................................165
5.4基於殘差網路的手寫體數字識別............................166
5.4.1模型構建.....................................167
5.4.2沒有殘差連線的ResNet18...........................173
5.4.3帶殘差連線的ResNet18.............................174
5.5實踐:基於ResNet18網路完成圖像分類任務......................175
5.5.1數據處理.....................................176
5.5.2模型構建.....................................179
5.5.3模型訓練.....................................179
5.5.4模型評價.....................................181
5.5.5模型預測.....................................181
5.6小結............................................182
第6章循環神經網路183
6.1循環神經網路的記憶能力實驗..............................184
6.1.1數據集構建....................................185
6.1.2模型構建.....................................189
6.1.3模型訓練.....................................194
6.1.4模型評價.....................................196
6.2梯度爆炸實驗.......................................196
6.2.1梯度列印函式..................................197
6.2.2復現梯度爆炸問題................................197
6.2.3使用梯度截斷解決梯度爆炸問題........................199
6.3LSTM的記憶能力實驗..................................200
6.3.1模型構建.....................................202
6.3.2模型訓練.....................................204
6.3.3模型評價.....................................206
6.4實踐:基於雙向LSTM模型完成文本分類任務.....................207
6.4.1數據處理.....................................207
6.4.2模型構建.....................................212
6.4.3模型訓練.....................................214
6.4.4模型評價.....................................215
6.4.5模型預測.....................................216
6.5小結............................................216
第7章網路最佳化與正則化217
7.1小批量梯度下降法....................................218
7.2批大小的調整實驗....................................218
7.3不同最佳化算法的比較分析................................221
7.3.1最佳化算法的實驗設定..............................222
7.3.2學習率調整....................................229
7.3.3梯度估計修正..................................235
7.3.4不同最佳化器的3D可視化對比..........................240
7.4參數初始化........................................244
7.4.1基於固定方差的參數初始化...........................244
7.4.2基於方差縮放的參數初始化...........................245
7.5逐層規範化........................................250
7.5.1批量規範化....................................250
7.5.2層規範化.....................................257
7.6網路正則化方法.....................................259
7.6.1數據集構建....................................260
7.6.2模型構建.....................................260
7.6.3?1和?2正則化..................................266
7.6.4權重衰減.....................................268
7.6.5暫退法......................................269
7.7小結............................................272
第8章注意力機制273
8.1基於雙向LSTM和注意力機制的文本分類.......................274
8.1.1數據介紹.....................................275
8.1.2模型構建.....................................275
8.1.3使用加性注意力模型進行實驗.........................282
8.1.4使用點積注意力模型進行實驗.........................284
8.2基於雙向LSTM和多頭自注意力的文本分類實驗...................287
8.2.1自注意力模型..................................287
8.2.2基於LSTM和多頭自注意力的文本分類的模型構建..............297
8.2.3模型訓練.....................................299
8.2.4模型評價.....................................300
8.2.5模型預測.....................................301
8.3實踐:基於自注意力模型的文本語義匹配........................302
8.3.1數據集構建....................................303
8.3.2模型構建.....................................306
8.3.3模型訓練.....................................316
8.3.4模型評價.....................................317
8.3.5模型預測.....................................318
8.3.6注意力可視化..................................318
8.4小結............................................321
作者簡介
邱錫鵬
復旦大學計算機學院教授,國家優青獲得者,主要從事自然語言處理、深度學習等方向的研究,發表CCF A/B類論文70餘篇,獲得ACL 2017傑出論文獎(CCF A類)、CCL 2019最佳論文獎、《中國科學:技術科學》2021年度高影響力論文獎,多篇論文入選PaperDigest發布的IJCAI/ACL/EMNLP的最有影響力論文,主持開發了開源框架FudanNLP和FastNLP,這兩個框架已被國內外數百家單位使用。2015年入選首屆中國科協青年人才托舉工程,2018年獲錢偉長中文信息處理科學技術獎青年創新獎,2020年獲第四屆上海高校青年教師教學競賽優等獎,2021年獲首屆上海市計算機學會教學成果獎一等獎(第一完成人)。培養學生多次獲得一級學會優博、微軟學者、百度獎學金等。