自然語言處理套用與實戰

自然語言處理套用與實戰

《自然語言處理套用與實戰》是電子工業出版社出版的圖書,作者是韓少雲等。

基本介紹

  • 中文名:自然語言處理套用與實戰 
  • 作者:韓少雲等
  • 出版時間:2023年3月
  • 出版社:電子工業出版社出版
  • 頁數:284 頁
  • 字數:396千字
  • ISBN:9787121450174
  • 開本:16 開
內容簡介,圖書目錄,

內容簡介

本書系統介紹了自然語言處理及深度學習,並結合實際套用場景和綜合案例,深入淺出地講解自然語言處理領域的相關知識。 全書共 15 章,分為 4 個部分。第 1 部分是自然語言處理基礎,首先介紹自然語言處理的相關概念和基本技能,然後介紹詞向量技術和實現方法,最後介紹關鍵字提取技術。第 2 部分是自然語言處理核心技術,分別介紹樸素貝葉斯算法、N-gram 語言模型、PyTorch 深度學習框架、FastText 模型文本分類和基於深度學習的文本分類。第 3 部分是序列標註,介紹序列標註的具體套用,如 HMM 詞性標註和 HMM 命名實體識別等常見的自然語言處理套用場景。第 4 部分是預訓練模型,它在很大程度上促進了自然語言處理的發展,這部分內容關注預訓練模型的具體套用,如 ALBERT 的命名實體識別、Transformer 的文本分類、BERT的文本相似度計算、ERNIE 的情感分析等。 本書適合對人工智慧、機器學習、深度學習和自然語言處理感興趣的讀者閱讀,也可以作為套用型本科院校和高等職業院校人工智慧相關專業的教材。

圖書目錄

第 1 部分 自然語言處理基礎
第 1 章 緒論 2
1.1 自然語言處理綜述 3
1.1.1 自然語言處理的基本概念 3
1.1.2 自然語言處理的發展歷程 4
1.1.3 自然語言處理的研究內容 5
1.1.4 自然語言處理的挑戰與發展趨勢 7
1.2 文本處理技能 9
1.2.1 字元串處理 9
1.2.2 中文分詞及案例實現 11
1.3 文本數據處理 13
1.3.1 文本操作基礎 13
1.3.2 案例實現——文本數據統計 15
1.3.3 案例實現——詞雲生成 17
本章總結 19
作業與練習 19
第 2 章 詞向量技術 21
2.1 詞向量概述 22
2.1.1 詞向量基礎 22
2.1.2 詞向量表示的問題 22
2.2 詞向量離散表示 23
2.2.1 獨熱編碼 23
2.2.2 詞袋模型 24
2.2.3 詞頻-逆文本頻率 25
2.2.4 案例實現——文本離散表示 25
2.3 詞向量分布表示 29
2.3.1 神經網路語言模型 29
2.3.2 Word2vec 模型 31
2.3.3 案例實現——中文詞向量訓練 33
本章總結 39
作業與練習 39
第 3 章 關鍵字提取 41
3.1 關鍵字提取概述 42
3.1.1 關鍵字提取基礎 42
3.1.2 基於 TF-IDF 的關鍵字提取 42
3.1.3 基於 TextRank 的關鍵字提取 43
3.1.4 基於 Word2vec 詞聚類的關鍵字提取 43
3.2 關鍵字提取的實現 44
3.2.1 案例介紹 44
3.2.2 案例實現——關鍵字提取綜合案例 45
本章總結 57
作業與練習 57
第 2 部分 自然語言處理核心技術
第 4 章 樸素貝葉斯中文分類 60 4.1 樸素貝葉斯分類算法概述 60
4.1.1 機率基礎 60
4.1.2 樸素貝葉斯分類器 62
4.2 機器學習庫 sklearn 64
4.2.1 sklearn 獲取數據 64
4.2.2 sklearn 數據預處理 64
4.2.3 sklearn 構建模型 65
4.3 案例實現——樸素貝葉斯中文分類 65
本章總結 71
作業與練習 72
第 5 章 N-gram 語言模型 73
5.1 N-gram 概述 73
5.1.1 N-gram 語言模型簡介 73
5.1.2 N-gram 機率計算 74
5.1.3 案例——N-gram 的實現 75
5.2 案例實現——基於 N-gram 的新聞文本預測 77
本章總結 84
作業與練習 84
第 6 章 PyTorch 深度學習框架 85
6.1 PyTorch 基礎 85
6.1.1 PyTorch 的介紹與安裝 85
6.1.2 PyTorch 入門使用 87
6.1.3 梯度下降與反向傳播 92
6.1.4 案例——使用 PyTorch 實現線性回歸 95
6.2 PyTorch 數據載入 99
6.2.1 使用數據載入器的目的 99
6.2.2 DataSet 的使用方法 99
6.2.3 DataLoader 的使用方法 100
6.3 PyTorch 自帶數據集載入 101
本章總結 102
作業與練習 102
第 7 章 FastText 模型文本分類 104
7.1 FastText 模型簡介 104
7.1.1 FastText 模型原理 104
7.1.2 FastText 模型結構 105
7.1.3 FastText 模型最佳化 105
7.2 案例實現——FastText 模型文本分類 106
本章總結 118
作業與練習 118
第 8 章 基於深度學習的文本分類 119
8.1 基於 TextCNN 的文本分類 119
8.1.1 卷積神經網路 119
8.1.2 TextCNN 的原理 121
8.2 基於 TextRNN 的文本分類 122
8.2.1 LSTM 原理 122
8.2.2 LSTM 網路結構 123
8.3 基於 TextRCNN 的文本分類 124
8.3.1 TextRCNN 原理 124
8.3.2 TextRCNN 網路結構 125
8.4 案例實現——基於深度學習的文本分類 126
本章總結 146
作業與練習 146
第 3 部分 序列標註
第 9 章 HMM 的詞性標註 148
9.1 詞性標註簡介 149
9.1.1 詞性標註的基本概念 149
9.1.2 中文詞性的分類及作用 149
9.1.3 詞性標註體系 150
9.2 HMM 詞性標註的原理和基本問題 151
9.2.1 HMM 詞性標註的原理 151
9.2.2 HMM 的基本問題 151
9.3 案例實現——HMM 的中文詞性標註 152
本章總結 158
作業與練習 158
第 10 章 HMM 的命名實體識別 159
10.1 命名實體識別 160
10.1.1 命名實體識別的概念 160
10.1.2 NER 的標註方法 160
10.2 NER 的 HMM 162
10.3 案例實現——HMM 的中文命名實體識別 162
本章總結 175
作業與練習 175
第 11 章 BiLSTM-CRF 的命名實體識別 176
11.1 CRF 簡介 177
11.1.1 CRF 的基本概念 177
11.1.2 BiLSTM 的命名實體識別 177
11.1.3 CRF 的命名實體識別 178
11.2 BiLSTM-CRF 的原理 179
11.3 案例實現——BiLSTM-CRF 的中文命名實體識別 180
本章總結 189
作業與練習 189
第 4 部分 預訓練模型
第 12 章 ALBERT 的命名實體識別 192
12.1 預訓練模型簡介 193
12.1.1 預訓練模型的基本概念 193
12.1.2 經典的預訓練模型 193
12.2 預訓練模型 Hugging Face 195
12.2.1 Hugging Face 簡介 195
12.2.2 案例實現——使用 Hugging Face完成情感分析 196
12.3 案例實現——ALBERT 的中文命名實體識別 198
本章總結 207
作業與練習 207
第 13 章 Transformer 的文本分類 209
13.1 Transformer 概述 210
13.1.1 Encoder-Decoder 模型 210
13.1.2 Transformer 簡介 210
13.1.3 Transformer 總體結構 211
13.2 Self-Attention 機制 213
13.2.1 Self-Attention 機制的原理 213
13.2.2 Self-Attention 的計算過程 214
13.2.3 位置編碼和 Layer Normalization 215
13.3 案例實現——Transformer 的文本分類 217
本章總結 234
作業與練習 234
第 14 章 BERT 的文本相似度計算 236
14.1 文本相似度簡介 237
14.1.1 文本相似度的套用場景 237
14.1.2 文本相似度計算的方法 237
14.2 BERT 的文本相似度簡介 238
14.3 案例實現——BERT 的文本相似度計算 239
本章總結 251
作業與練習 251
第 15 章 ERNIE 的情感分析 253
15.1 情感分析簡介 254
15.1.1 情感分析的基本概念 254
15.1.2 情感分析的方法 254
15.2 ERNIE 簡介 255
15.3 案例實現——ERNIE 的中文情感分析 257
本章總結 271
作業與練習 272

相關詞條

熱門詞條

聯絡我們