自然語言處理實戰:從入門到項目實踐

自然語言處理實戰:從入門到項目實踐

《自然語言處理實戰:從入門到項目實踐》是2022年人民郵電出版社出版的圖書,作者是[印]索米亞·瓦賈拉(Sowmya Vajjala)、[印]博迪薩特瓦·馬祖達爾。

基本介紹

  • 中文名:自然語言處理實戰:從入門到項目實踐
  • 作者:[印]索米亞·瓦賈拉(Sowmya Vajjala)、[印]博迪薩特瓦·馬祖達爾
  • 出版時間:2022年9月
  • 出版社:人民郵電出版社
  • ISBN:9787115597892
  • 類別:圖書>計算機/網路>人工智慧>深度學習與神經網路
  • 開本:128 開
  • 裝幀:平裝
內容簡介,圖書目錄,作者簡介,

內容簡介

本書以實際業務場景為例,介紹自然語言處理(NLP)系統開發項目的整個生命周期——從收集數據到部署和監控模型。讀者將深入理解NLP系統的開發流程,知道如何消除開發痛點,從算法、數據等方面提高NLP系統的質量。全書分為四大部分,共有11章。部分概述NLP技術,為全書奠定知識基礎。第二部分從實戰角度講解NLP系統的開發要點,內容涉及文本分類、信息提取等。第三部分專注於NLP重點套用的垂直領域:社交媒體、電子商務、醫療行業、金融業等,並輔以Python示例。第四部分將所有知識點融會貫通,並講解如何利用所學知識部署NLP系統。

圖書目錄

第 1章 自然語言處理概要 3
1.1 真實世界中的自然語言處理 4
1.2 什麼是語言 7
1.2.1 語言的基本模組 8
1.2.2 為什麼自然語言處理很困難 10
1.3 機器學習、深度學習和自然語言處理:概述 12
1.4 自然語言處理方法 13
1.4.1 基於啟發式的自然語言處理 13
1.4.2 用於自然語言處理的機器學習 16
1.4.3 用於自然語言處理的深度學習 18
1.4.4 為什麼深度學習還不是自然語言處理的靈丹妙藥 22
1.5 自然語言處理演練:對話智慧型體 25
1.6 小結 26
第 2章 自然語言處理流水線 27
2.1 數據獲取 28
2.2 文本提取和清洗 31
2.2.1 HTML 解析和清洗 32
2.2.2 Unicode 規範化 33
2.2.3 拼寫更正 34
2.2.4 特定於系統的錯誤更正 35
2.3 預處理 37
2.3.1 預備步驟 37
2.3.2 常用步驟 39
2.3.3 其他預處理步驟 42
2.3.4 高級處理 43
2.4 特徵工程 45
2.4.1 經典自然語言處理/ 機器學習流水線 .47
2.4.2 深度學習流水線 47
2.5 建模 47
2.5.1 從簡單的啟發式開始 47
2.5.2 構建自己的模型 48
2.5.3 構建終模型 49
2.6 評估 51
2.6.1 內在評估 51
2.6.2 外在評估 53
2.7 建模之後的階段 54
2.7.1 部署 54
2.7.2 監控 54
2.7.3 模型更新 55
2.8 使用其他語言 55
2.9 案例研究 56
2.10 小結 57
第3 章 文本表示 58
3.1 向量空間模型 60
3.2 基本的向量化方法 61
3.2.1 獨熱編碼 62
3.2.2 詞袋 .63
3.2.3 n-gram袋 64
3.2.4 TF-IDF 65
3.3 分散式表示 67
3.3.1 詞嵌入 68
3.3.2 詞語之上 75
3.4 詞和字元之上的分散式表示 77
3.5 通用文本表示 77
3.6 可視化嵌入 79
3.7 人工特徵表示 82
3.8 小結 83
第4章 文本分類 87
4.1 應用程式 88
4.2 文本分類流水線 90
4.2.1 不使用文本分類流水線的簡單分類器 91
4.2.2 使用現成的文本分類API 91
4.3 一個流水線,多個分類器 92
4.3.1 樸素貝葉斯分類器 92
4.3.2 邏輯回歸 .96
4.3.3 SVM 97
4.4 在文本分類中使用神經嵌入 98
4.4.1 詞嵌入 98
4.4.2 子詞嵌入和fastText 100
4.4.3 文檔嵌入 101
4.5 用於文本分類的深度學習 103
4.5.1 用於文本分類的CNN 104
4.5.2 用於文本分類的LSTM 106
4.5.3 使用大型預訓練語言模型進行文本分類 106
4.6 解釋文本分類模型 107
4.7 無數據或少數據學習和新領域適應 109
4.7.1 無訓練數據 109
4.7.2 少訓練數據:主動學習和領域適應 110
4.8 案例研究:企業工單系統 111
4.9 實用建議 114
4.10 小結 115
第5章 信息提取 116
5.1 信息提取應用程式 117
5.2 信息提取任務 117
5.3 信息提取的通用流水線 119
5.4 關鍵字提取 120
5.4.1 實現關鍵字提取 121
5.4.2 實用建議 121
5.5 命名實體識別 122
5.5.1 構建命名實體識別系統 123
5.5.2 命名實體識別:使用現有庫 126
5.5.3 命名實體識別:使用主動學習 126
5.5.4 實用建議 127
5.6 命名實體消歧與連結 128
5.7 關係提取 129
5.7.1 關係提取的方法 130
5.7.2 關係提取:使用IBM 沃森API 132
5.8 其他高級信息提取任務 133
5.8.1 時間信息提取 133
5.8.2 事件提取 134
5.8.3 模板填充 135
5.9 案例研究 136
5.10 小結 139
第6章 聊天機器人 140
6.1 聊天機器人的套用 141
6.2 聊天機器人的分類 143
6.2.1 目標導向對話式 144
6.2.2 閒聊式144
6.3 構建對話系統的流水線 144
6.4 對話系統原理 146
6.5 深入對話系統的組件 155
6.5.1 對話行為分類 156
6.5.2 識別插槽 156
6.5.3 生成回響 157
6.5.4 帶有代碼演練的對話示例 158
6.6 其他對話流水線 162
6.6.1 端到端方法 162
6.6.2 用於對話生成的深度強化學習 163
6.6.3 人工監督 164
6.7 Rasa NLU 165
6.8 案例研究:食譜推薦 167
6.8.1 利用現有框架 168
6.8.2 開放式生成聊天機器人 169
6.9 小結 170
第7章 主題簡介 172
7.1 搜尋和信息檢索 173
7.1.1 搜尋引擎組件 175
7.1.2 常見企業搜尋流水線 177
7.1.3 一個配置搜尋引擎的例子 178
7.1.4 案例研究:書店搜尋 179
7.2 主題建模 180
7.2.1 一個構建主題模型的例子 183
7.2.2 下一步是什麼 184
7.3 文本摘要 185
7.3.1 摘要用例 185
7.3.2 一個設定摘要器的示例 186
7.3.3 實用建議 187
7.4 文本推薦系統 188
7.4.1 一個圖書推薦系統示例 188
7.4.2 實用建議 189
7.5 機器翻譯 189
7.5.1 一個使用機器翻譯API 的示例 190
7.5.2 實用建議 191
7.6 問答系統 192
7.6.1 開發自定義問答系統 193
7.6.2 尋找更有深度的答案 193
7.7 小結 194
第8章 社交媒體 197
8.1 套用 198
8.2 獨特的挑戰 199
8.3 用於社交平台數據的自然語言處理 205
8.3.1 詞雲 205
8.3.2 用於SMTD 的分詞器 206
8.3.3 熱門話題 207
8.3.4 理解Twitter 的情緒 207
8.3.5 SMTD 的預處理 209
8.3.6 SMTD 的文本表示 212
8.3.7 社交媒體渠道的客戶支持 215
8.4 模因與虛假新聞 216
8.4.1 識別模因 217
8.4.2 虛假新聞 218
8.5 小結 219
第9 章 電子商務與零售 220
9.1 電子商務目錄 221
9.1.1 評論分析 221
9.1.2 產品搜尋 221
9.1.3 產品推薦 222
9.2 電子商務中的搜尋 222
9.3 構建電子商務目錄 224
9.3.1 屬性提取 224
9.3.2 產品分類與分類樹 228
9.3.3 產品濃縮 231
9.3.4 產品去重和匹配 233
9.4 評論分析 234
9.4.1 情感分析 234
9.4.2 方面級情感分析 236
9.4.3 將總體評分與“方面”聯繫起來 238
9.4.4 理解“方面” 239
9.5 電子商務推薦 240
9.6 小結 243
第 10章 醫療、金融和法律 244
10.1 醫療 244
10.1.1 健康和醫療記錄 245
10.1.2 患者優先權和計費 246
10.1.3 藥物安全監視 246
10.1.4 臨床決策支持系統 246
10.1.5 健康助理 247
10.1.6 電子健康記錄 248
10.1.7 心理健康監測 255
10.1.8 醫療信息提取與分析 257
10.2 金融與法律 259
10.2.1 自然語言處理在金融領域中的套用 261
10.2.2 自然語言處理與法律行業 263
10.3 小結 266
第 11章 端到端自然語言處理系統 269
11.1 重溫自然語言處理流水線:部署自然語言處理軟體 270
11.2 構建和維護成熟的系統 272
11.2.1 尋找更好的特徵 273
11.2.2 疊代現有模型 274
11.2.3 代碼和模型再現性 274
11.2.4 故障排除和可解釋性 275
11.2.5 監控 277
11.2.6 儘量減少技術債務 278
11.2.7 自動化機器學習 279
11.3 數據科學過程 282
11.3.1 KDD 過程 282
11.3.2 微軟TDSP 283
11.4 讓人工智慧在組織中取得成功 284
11.4.1 團隊 285
11.4.2 正確的問題和正確的期望 285
11.4.3 數據和時間 286
11.4.4 好的流程 287
11.4.5 其他方面 288
11.5 展望未來 290
11.6 結語 292

作者簡介

索米亞·瓦賈拉(Sowmya Vajjala)擁有德國圖賓根大學計算語言學博士學位,曾就職於微軟研究院,擁有跨學術界和工業界的自然語言處理經驗。博迪薩特瓦·馬祖達爾(Bodhisattwa Majumder)曾在谷歌和微軟研究院構建自然語言處理系統,為數百萬用戶提供產品服務。阿努傑·古普塔(Anuj Gupta)為《財富》100強公司和多家創業公司孵化和組建了機器學習團隊。哈爾希特·蘇拉納(Harshit Surana)是DeepFlux公司的聯合創始人兼CTO,曾在卡內基?C梅隆大學和麻省理工學院媒體實驗室研究自然語言處理和機器學習。【譯者簡介】吳進操近十年語言信息處理經驗,曾深度參與企業級翻譯系統的研發,熟練掌握Python,對自然語言與人工智慧的結合有深刻認識。黃若星位元組跳動AML團隊早期成員,曾參與位元組跳動機器學習平台及聯邦學習框架Fedlearner的研發,熱衷於人工智慧在工業界的套用與實踐。

相關詞條

熱門詞條

聯絡我們