Python和NLTK自然語言處理

Python和NLTK自然語言處理

《Python和NLTK自然語言處理》是2019年11月人民郵電出版社出版的圖書,作者是[印度]尼天·哈登尼亞、雅各布·帕金斯、迪蒂·喬普拉、尼什·斯喬希。

基本介紹

  • 書名:Python和NLTK自然語言處理
  • 作者:[印度]尼天·哈登尼亞
    雅各布·帕金斯
    迪蒂·喬普拉
    尼什·斯喬希
  • ISBN:9787115503343
  • 頁數:621頁
  • 定價:138元
  • 出版社:人民郵電出版社
  • 出版時間:2019年11月
  • 裝幀:平裝
  • 開本:16開
內容簡介,圖書目錄,

內容簡介

NLTK是自然語言處理領域中非常受歡迎和廣泛使用的Python庫。NLTK的優點在於其簡單性,其厚符說中大多數複雜的自然語言處理坑道任務使用幾行代碼即可完成。本書旨在講述如何用Python和NLTK解決各種自然語言處理任務並開發機器學習方面的套用。本書介紹了NLTK的基本模組,講述了採用NLTK實現自然語言處理的大量技巧,討論了一些文本處理方法和語言處理技術,展示了使用Python實現NLP項目的大糊墓囑量實踐經驗。本書主要內容包括文本挖掘/NLP任務中所需的所有預處理步驟,如何使用Python 3的NLTK 3進行文本處理,如何通過Python開展NLP項目。
本書適合NLP和機器學習領域的愛好者、Python程式設計師以及機器學習領域的研究人員閱讀。

圖書目錄

模組1 NLTK基礎知識
第 1章 自然語言處理簡介 3
1.1 為什麼要學習NLP 4
從Python的基本知識開始 7
1.2.1 列表 7
1.2.2 自助 8
1.2.3 正則表達式 9
1.2.4 詞典 11
1.2.5 編寫函式 11
1.3 NLTK 13
1.4 試一試 18
1.5 本章小結 18
第 2章 文本的整理和清洗 19
2.1 文本整理 19
2.2 文本清洗 21
2.3 句子拆分器 22
2.4 標記解析 22
2.5 詞幹提取 24
2.6 詞形還原 25
2.7 停用詞刪除 26
2.8 生僻字刪除 27
2.9 拼寫校正 27
2.10 試一試 28
2.11 本章小結 28
第3章 詞性標註 30
3.1 什麼是詞性標註 30
3.1.1 斯坦福標註器 33
3.1.2 深入了解標註器 34
3.1.3 序列標註器 35
3.1.4 布里爾標註器 37
3.1.5 基於標註器的機器學習 37
3.2 命名實體識別 38
3.3 試一試 40
3.4 本章小結 41
第4章 對文本的結構進行求民辯背語法分析 42
4.1 淺層語法分析與深層語法
分析 42
4.2 語法分析的兩種方法 43
4.3 為什麼需要語法分析 43
4.4 不同類型的語法分析器 45
4.4.1 遞歸下降的語法分析器 45
4.4.2 移位歸約語法分析器邀牛民犁 45
4.4.3 圖表語法分析器 45
4.4.4 正則表達式語法
分析器 46
4.5 依存分析 47
4.6 組塊化 49
4.7 信息抽取 51
4.7.1 命名實體識別 52
4.7.2 關係抽取 52
4.8 本章小結 53
第5章 NLP應駝龍少用 54
5.1 構建第 一個NLP套用 54
5.2 其他的NLP套用 58
5.2.1 機器翻譯 58
5.2.2 統計機器翻譯 59
5.2.3 信息檢索 59
5.2.4 語音識別 61
5.2.5 文本分類 62
5.2.6 信息提取 63
5.2.7 問答系統 64
5.2.8 對話系統 64
5.2.9 詞義消歧 64
5.2.10 主題建模 64
5.2.11 語言檢測 65
5.2.12 光學字元識別 65
5.3 本章小結 65
第6章 文本分類 66
6.1 機器學習 67
6.2 文本分類 68
6.3 採樣 70
6.3.1 樸素貝葉斯 73
6.3.2 決策樹 75
6.3.3 隨機梯度下降 76
6.3.4 邏輯回歸 77
6.3.5 支持向量機 78
6.4 隨機森林算法 79
6.5 文本聚類 79
6.6 文本的主題建模芝愉微 81
6.7 參考資料 83
6.8 本章小結 83
第7章 網路爬取 85
7.1 網路爬蟲 85
7.2 編寫第 一個爬蟲程式 86
7.3 Scrapy中的數據流 89
7.3.1 Scrapy命令行界面 89
7.3.2 項 94
7.4 站點地圖蜘蛛 96
7.5 項管道 97
7.6 外部參考 98
7.7 本章小結 99
第8章 與其他Python庫一同
使用NLTK 100
8.1 NumPy 100
8.1.1 ndarray 101
8.1.2 基本操作 102
8.1.3 從數組中提取數據 103
8.1.4 複雜的矩陣運算 103
8.2 SciPy 107
8.2.1 線性代數 108
8.2.3 稀疏矩陣 109
8.2.4 最佳化 110
8.3 Pandas 111
8.3.1 讀取數據 112
8.3.2 時序數據 114
8.3.3 列轉換 115
8.3.4 噪聲數據 116
8.4 Matplotlib 117
8.4.1 subplot 118
8.4.2 添加軸 119
8.4.3 散點圖 120
8.4.4 柱狀圖 120
8.4.5 3D圖 121
8.5 外部參考 121
8.6 本章小結 121
第9章 使用Python進行社交媒體
挖掘 122
9.1 數據收集 122
9.2 數據提取 126
9.3 地理可視化 128
9.3.1 影響者檢測 129
9.3.2 Facebook 130
9.3.3 影響者的朋友 134
9.4 本章小結 135
第 10章 大規模的文本挖掘 136
10.1 在Hadoop上使用Python的
不同方法 136
10.1.1 Python的流 137
10.1.2 Hive/Pig UDF 137
10.1.3 流包裝器 137
10.2 在Hadoop上運行NLTK 138
10.2.1 UDF 138
10.2.2 Python流 140
10.3 在Hadoop上運行
Scikit-learn 141
10.4 PySpark 144
10.5 本章小結 146
模組2 使用Python 3的NLTK 3進行文本處理
第 1章 標記文本和WordNet的基礎 149
1.1 引言 149
1.2 將文本標記成句子 150
1.2.1 準備工作 150
1.2.2 工作方式 151
1.2.3 工作原理 151
1.2.4 更多信息 151
1.2.5 請參閱 152
1.3 將句子標記成單詞 152
1.3.1 工作方式 152
1.3.2 工作原理 153
1.3.3 更多信息 153
1.3.4 請參閱 154
1.4 使用正則表達式標記語句 154
1.4.1 準備工作 155
1.4.2 工作方式 155
1.4.3 工作原理 155
1.4.4 更多信息 155
1.4.5 請參閱 156
1.5 訓練語句標記生成器 156
1.5.1 準備工作 156
1.5.2 工作方式 156
1.5.3 工作原理 157
1.5.4 更多信息 158
1.5.5 請參閱 158
1.6 在已標記的語句中過濾
停用詞 158
1.6.1 準備工作 158
1.6.2 工作方式 159
1.6.3 工作原理 159
1.6.4 更多信息 159
1.6.5 請參閱 160
1.7 查找WordNet中單詞的
Synset 160
1.7.1 準備工作 160
1.7.2 工作方式 160
1.7.3 工作原理 161
1.7.4 更多信息 161
1.7.5 請參閱 163
1.8 在WordNet中查找詞元和
同義詞 163
1.8.1 工作方式 163
1.8.2 工作原理 163
1.8.3 更多信息 163
1.8.4 請參閱 165
1.9 計算WordNet和Synset的
相似度 165
1.9.1 工作方式 165
1.9.2 工作原理 165
1.9.3 更多信息 166
1.9.4 請參閱 167
1.10 發現單詞搭配 167
1.10.1 準備工作 167
1.10.2 工作方式 167
1.10.3 工作原理 168
1.10.4 更多信息 168
1.10.5 請參閱 169
第 2章 替換和校正單詞 170
2.1 引言 170
2.2 詞幹提取 170
2.2.1 工作方式 171
2.2.2 工作原理 171
2.2.3 更多信息 171
2.2.4 請參閱 173
2.3 使用WordNet進行詞形還原 173
2.3.1 準備工作 173
2.3.2 工作方式 173
2.3.3 工作原理 174
2.3.4 更多信息 174
2.3.5 請參閱 175
2.4 基於匹配的正則表達式替換
單詞 175
2.4.1 準備工作 175
2.4.2 工作方式 175
2.4.3 工作原理 176
2.4.4 更多信息 177
2.4.5 請參閱 177
2.5 移除重複字元 177
2.5.1 準備工作 177
2.5.2 工作方式 178
2.5.3 工作原理 178
2.5.4 更多信息 179
2.5.5 請參閱 179
2.6 使用Enchant進行拼寫校正 180
2.6.1 準備工作 180
2.6.2 工作方式 180
2.6.3 工作原理 181
2.6.4 更多信息 181
2.6.5 請參閱 183
2.7 替換同義詞 183
2.7.1 準備工作 183
2.7.2 工作方式 183
2.7.3 工作原理 184
2.7.4 更多信息 184
2.7.5 請參閱 185
2.8 使用反義詞替換否定形式 186
2.8.1 工作方式 186
2.8.2 工作原理 187
2.8.3 更多信息 187
2.8.4 請參閱 188
第3章 創建自定義語料庫 189
3.1 引言 189
3.2 建立自定義語料庫 190
3.2.1 準備工作 190
3.2.2 工作方式 190
3.2.3 工作原理 191
3.2.4 更多信息 192
3.2.5 請參閱 192
3.3 創建辭彙表語料庫 192
3.3.1 準備工作 192
3.3.2 工作方式 193
3.3.3 工作原理 193
3.3.4 更多信息 194
3.3.5 請參閱 194
3.4 創建已標記詞性單詞的
語料庫 195
3.4.1 準備工作 195
3.4.2 工作方式 195
3.4.3 工作原理 196
3.4.4 更多信息 196
3.4.5 請參閱 199
3.5 創建已組塊短語的語料庫 199
3.5.1 準備工作 199
3.5.2 工作方式 199
3.5.3 工作原理 201
3.5.4 更多信息 201
3.5.5 請參閱 203
3.6 創建已分類文本的語料庫 203
3.6.1 準備工作 204
3.6.2 工作方式 204
3.6.3 工作原理 204
3.6.4 更多信息 205
3.6.5 請參閱 206
3.7 創建已分類組塊語料庫
讀取器 206
3.7.1 準備工作 206
3.7.2 工作方式 207
3.7.3 工作原理 208
3.7.4 更多信息 209
3.7.5 請參閱 213
3.8 懶惰語料庫載入 213
3.8.1 工作方式 213
3.8.2 工作原理 214
3.8.3 更多信息 214
3.9 創建自定義語料庫視圖 215
3.9.1 工作方式 215
3.9.2 工作原理 216
3.9.3 更多信息 217
3.9.4 請參閱 218
3.10 創建基於MongoDB的
語料庫讀取器 218
3.10.1 準備工作 219
3.10.2 工作方式 219
3.10.3 工作原理 220
3.10.4 更多信息 221
3.10.5 請參閱 221
3.11 在加鎖檔案的情況下編輯
語料庫 221
3.11.1 準備工作 221
3.11.2 工作方式 221
3.11.3 工作原理 222
第4章 詞性標註 224
4.1 引言 224
4.2 默認標註 225
4.2.1 準備工作 225
4.2.2 工作方式 225
4.2.3 工作原理 226
4.2.4 更多信息 227
4.2.5 請參閱 228
4.3 訓練一元組詞性標註器 228
4.3.1 工作方式 228
4.3.2 工作原理 229
4.3.3 更多信息 230
4.3.4 請參閱 231
4.4 回退標註的組合標註器 231
4.4.1 工作方式 231
4.4.2 工作原理 232
4.4.3 更多信息 232
4.4.4 請參閱 233
4.5 訓練和組合N元標註器 233
4.5.1 準備工作 233
4.5.2 工作方式 233
4.5.3 工作原理 234
4.5.4 更多信息 235
4.5.5 請參閱 236
4.6 創建似然單詞標籤的
模型 236
4.6.1 工作方式 236
4.6.2 工作原理 237
4.6.3 更多信息 237
4.6.4 請參閱 238
4.7 使用正則表達式標註 238
4.7.1 準備工作 238
4.7.2 工作方式 238
4.7.3 工作原理 239
4.7.4 更多信息 239
4.7.5 請參閱 239
4.8 詞綴標籤 239
4.8.1 工作方式 239
4.8.2 工作原理 240
4.8.3 更多信息 240
4.8.4 請參閱 241
4.9 訓練布里爾標註器 241
4.9.1 工作方式 241
4.9.2 工作原理 242
4.9.3 更多信息 243
4.9.4 請參閱 244
4.10 訓練TnT標註器 244
4.10.1 工作方式 244
4.10.2 工作原理 244
4.10.3 更多信息 245
4.10.4 請參閱 246
4.11 使用WordNet進行
標註 246
4.11.1 準備工作 246
4.11.2 工作方式 247
4.11.3 工作原理 248
4.11.4 請參閱 248
4.12 標註專有名詞 248
4.12.1 工作方式 248
4.12.2 工作原理 249
4.12.3 請參閱 249
4.13 基於分類器的標註 249
4.13.1 工作方式 250
4.13.2 工作原理 250
4.13.3 更多信息 251
4.13.4 請參閱 252
4.14 使用NLTK訓練器訓練
標註器 253
4.14.1 工作方式 253
4.14.2 工作原理 254
4.14.3 更多信息 258
4.14.4 請參閱 260
第5章 提取組塊 261
5.1 引言 261
5.2 使用正則表達式組塊和
隔斷 262
5.2.1 準備工作 262
5.2.2 工作方式 262
5.2.3 工作原理 263
5.2.4 更多信息 265
5.2.5 請參閱 267
5.3 使用正則表達式合併和拆分
組塊 267
5.3.1 工作方式 267
5.3.2 工作原理 269
5.3.3 更多信息 270
5.3.4 請參閱 271
5.4 使用正則表達式擴展和刪除
組塊 271
5.4.1 工作方式 271
5.4.2 工作原理 272
5.4.3 更多信息 273
5.4.4 請參閱 273
5.5 使用正則表達式進行部分
解析 273
5.5.1 工作方式 273
5.5.2 工作原理 274
5.5.3 更多信息 275
5.5.4 請參閱 276
5.6 訓練基於標註器的組塊器 276
5.6.1 工作方式 276
5.6.2 工作原理 277
5.6.3 更多信息 278
5.6.4 請參閱 279
5.7 基於分類的分塊 279
5.7.1 工作方式 279
5.7.2 工作原理 282
5.7.3 更多信息 282
5.7.4 請參閱 283
5.8 提取命名實體 283
5.8.1 工作方式 283
5.8.2 工作原理 284
5.8.3 更多信息 284
5.8.4 請參閱 285
5.9 提取專有名詞組塊 285
5.9.1 工作方式 286
5.9.2 工作原理 286
5.9.3 更多信息 286
5.10 提取部位組塊 287
5.10.1 工作方式 288
5.10.2 工作原理 290
5.10.3 更多信息 290
5.10.4 請參閱 290
5.11 訓練命名實體組塊器 290
5.11.1 工作方式 290
5.11.2 工作原理 292
5.11.3 更多信息 292
5.11.4 請參閱 293
5.12 使用NLTK訓練器訓練
組塊器 293
5.12.1 工作方式 293
5.12.2 工作原理 294
5.12.3 更多信息 295
5.12.4 請參閱 299
第6章 轉換組塊與樹 300
6.1 引言 300
6.2 過濾句子中無意義的
單詞 301
6.2.1 準備工作 301
6.2.2 工作方式 301
6.2.3 工作原理 302
6.2.4 更多信息 302
6.2.5 請參閱 303
6.3 糾正動詞形式 303
6.3.1 準備工作 303
6.3.2 工作方式 303
6.3.3 工作原理 305
6.3.4 請參閱 306
6.4 交換動詞短語 306
6.4.1 工作方式 306
6.4.2 工作原理 307
6.4.3 更多信息 307
6.4.4 請參閱 307
6.5 交換名詞基數 308
6.5.1 工作方式 308
6.5.2 工作原理 309
6.5.3 請參閱 309
6.6 交換不定式短語 309
6.6.1 工作方式 309
6.6.2 工作原理 310
6.6.3 更多信息 310
6.6.4 請參閱 310
6.7 單數化複數名詞 310
6.7.1 工作方式 310
6.7.2 工作原理 311
6.7.3 請參閱 311
6.8 連結組塊變換 311
6.8.1 工作方式 311
6.8.2 工作原理 312
6.8.3 更多信息 312
6.8.4 請參閱 313
6.9 將組塊樹轉換為文本 313
6.9.1 工作方式 313
6.9.2 工作原理 314
6.9.3 更多信息 314
6.9.4 請參閱 314
6.10 平展深度樹 314
6.10.1 準備工作 315
6.10.2 工作方式 315
6.10.3 工作原理 316
6.10.4 更多信息 317
6.10.5 請參閱 318
6.11 創建淺樹 318
6.11.1 工作方式 318
6.11.2 工作原理 320
6.11.3 請參閱 320
6.12 轉換樹標籤 320
6.12.1 準備工作 320
6.12.2 工作方式 321
6.12.3 工作原理 322
6.12.4 請參閱 322
第7章 文本分類 323
7.1 引言 323
7.2 詞袋特徵提取 324
7.2.1 工作方式 324
7.2.2 工作原理 325
7.2.3 更多信息 325
7.2.4 請參閱 327
7.3 訓練樸素貝葉斯
分類器 327
7.3.1 準備工作 327
7.3.2 工作方式 328
7.3.3 工作原理 329
7.3.4 更多信息 330
7.3.5 請參閱 333
7.4 訓練決策樹分類器 334
7.4.1 工作方式 334
7.4.2 工作原理 335
7.4.3 更多信息 335
7.4.4 請參閱 337
7.5 訓練最大熵分類器 337
7.5.1 準備工作 337
7.5.2 工作方式 337
7.5.3 工作原理 338
7.5.4 更多信息 339
7.5.5 請參閱 340
7.6 訓練scikit-learn
分類器 340
7.6.1 準備工作 341
7.6.2 工作方式 341
7.6.3 工作原理 342
7.6.4 更多信息 343
7.6.5 請參閱 345
7.7 衡量分類器的精準率和
召回率 346
7.7.1 工作方式 346
7.7.2 工作原理 347
7.7.3 更多信息 348
7.7.4 請參閱 349
7.8 計算高信息量單詞 349
7.8.1 工作方式 350
7.8.2 工作原理 351
7.8.3 更多信息 352
7.8.4 請參閱 354
7.9 使用投票組合分類器 354
7.9.1 準備工作 355
7.9.2 工作方式 355
7.9.3 工作原理 356
7.9.4 請參閱 356
7.10 使用多個二元分類器
分類 357
7.10.1 準備工作 357
7.10.2 工作方式 357
7.10.3 工作原理 361
7.10.4 更多信息 362
7.10.5 請參閱 363
7.11 使用NLTK訓練器訓練
分類器 363
7.11.1 工作方式 363
7.11.2 工作原理 364
7.11.3 更多信息 365
7.11.4 請參閱 371
第8章 分散式進程和大型數據集的
處理 372
8.1 引言 372
8.2 使用execnet進行分散式
標註 372
8.2.1 準備工作 373
8.2.2 工作方式 373
8.2.3 工作原理 374
8.2.4 更多內容 375
8.2.5 請參閱 377
8.3 使用execnet進行分散式
組塊 377
8.3.1 準備工作 377
8.3.2 工作方式 377
8.3.3 工作原理 378
8.3.4 更多內容 379
8.3.5 請參閱 379
8.4 使用execnet並行處理
列表 379
8.4.1 工作方式 379
8.4.2 工作原理 380
8.4.3 更多內容 381
8.4.4 請參閱 381
8.5 在Redis中存儲頻率分布 382
8.5.1 準備工作 382
8.5.2 工作方式 382
8.5.3 工作原理 384
8.5.4 更多內容 385
8.5.5 請參閱 386
8.6 在Redis中存儲條件頻率
分布 386
8.6.1 準備工作 386
8.6.2 工作方式 386
8.6.3 工作原理 387
8.6.4 更多內容 388
8.6.5 請參閱 388
8.7 在Redis中存儲有序
字典 388
8.7.1 準備工作 388
8.7.2 工作方式 388
8.7.3 工作原理 390
8.7.4 更多內容 391
8.7.5 請參閱 392
8.8 使用Redis和execnet進行
分散式單詞評分 392
8.8.1 準備工作 392
8.8.2 工作方式 392
8.8.3 工作原理 393
8.8.4 更多內容 396
8.8.5 請參閱 396
第9章 解析特定的數據類型 397
9.1 引言 397
9.2 使用dateutil解析日期和
時間 398
9.2.1 準備工作 398
9.2.2 工作方式 398
9.2.3 工作原理 399
9.2.4 更多信息 399
9.2.5 請參閱 399
9.3 時區的查找和轉換 400
9.3.1 準備工作 400
9.3.2 工作方式 400
9.3.3 工作原理 402
9.3.4 更多信息 402
9.3.5 請參閱 403
9.4 使用lxml從HTML中提取
URL 403
9.4.1 準備工作 403
9.4.2 工作方式 403
9.4.3 工作原理 404
9.4.4 更多信息 404
9.4.5 請參閱 405
9.5 清理和剝離HTML 405
9.5.1 準備工作 405
9.5.2 工作方式 405
9.5.3 工作原理 405
9.5.4 更多信息 406
9.5.5 請參閱 406
9.6 使用BeautifulSoup轉換
9.6.1 準備工作 406
9.6.2 工作方式 406
9.6.3 工作原理 407
9.6.4 更多信息 407
9.6.5 請參閱 407
9.7 檢測和轉換字元編碼 407
9.7.1 準備工作 408
9.7.2 工作方式 408
9.7.3 工作原理 409
9.7.4 更多信息 409
9.7.5 請參閱 410
附錄A 賓州treebank詞性標籤 411
模組3 使用Python掌握自然語言處理
第 1章 使用字元串 417
1.1 標記化 417
1.1.1 將文本標記為句子 418
1.1.2 其他語言文字的標記化 418
1.1.3 將句子標記為單詞 419
1.1.4 使用TreebankWordTokenizer
進行標記化 420
1.1.5 使用正則表達式進行
標記化 421
1.2 規範化 424
1.2.1 消除標點符號 424
1.2.2 轉化為小寫和大寫 425
1.2.3 處理停用詞 425
1.2.4 計算英語中的停用詞 426
1.3 替代和糾正標記 427
1.3.1 使用正則表達式替換
單詞 427
1.3.2 使用一個文本替換另一個
文本的示例 428
1.3.3 在標記化之前進行
替代 428
1.3.4 處理重複的字元 428
1.3.5 刪除重複字元的示例 429
1.3.6 使用單詞的同義詞替換
單詞 430
1.4 在文本上套用齊夫定律 431
1.5 相似性量度 431
1.5.1 使用編輯距離算法套用
相似性量度 432
1.5.2 使用傑卡德係數套用
相似性量度 434
1.5.3 使用史密斯-沃特曼算法
套用相似性量度 434
1.5.4 其他字元串相似性指標 435
1.6 本章小結 436
第 2章 統計語言模型 437
2.1 單詞頻率 437
2.1.1 對給定文本進行最大
似然估計 441
2.1.2 隱馬爾可夫模型估計 448
2.2 在MLE模型上套用平滑 450
2.2.1 加一平滑法 450
2.2.2 古德-圖靈算法 451
2.2.3 聶氏估計 456
2.2.4 威滕 貝爾估計 457
2.3 為MLE指定回退機制 457
2.4 套用數據插值獲得混合和
匹配 458
2.5 套用困惑度評估語言模型 458
2.6 在建模語言中套用
梅特羅波利斯-黑斯廷斯算法 459
2.7 在語言處理中套用
吉布斯採樣 459
2.8 本章小結 461
第3章 詞語形態學—試一試 462
3.1 詞語形態學 462
3.2 詞根還原器 463
3.3 詞形還原 466
3.4 開發用於非英語語言的詞根
還原器 467
3.5 詞語形態分析器 469
3.6 詞語形態生成器 471
3.7 搜尋引擎 471
3.8 本章小結 475
第4章 詞性標註—識別單詞 476
4.1 詞性標註 476
4.2 創建POS標註的語料庫 482
4.3 選擇某個機器學習算法 484
4.4 涉及n元組方法的統計建模 486
4.5 使用POS標註的語料庫開發
組塊器 491
4.6 本章小結 494
第5章 解析—分析訓練數據 495
5.1 解析 495
5.2 構建樹庫 496
5.3 從樹庫中提取上下文無關文法的
規則 501
5.4 從CFG中創建機率上下文無關的
文法 507
5.5 CYK圖解析算法 509
5.6 厄雷圖解析算法 510
5.7 本章小結 516
第6章 語義分析—意義重大 517
6.1 語義分析 517
6.1.1 NER簡介 521
6.1.2 使用隱馬爾可夫模型
NER系統 525
6.1.3 使用機器學習工具包訓練
NER 530
6.1.4 使用POS標註的
NER 531
6.2 從Wordnet中生成同義詞集
ID 534
6.3 使用Wordnet消除歧義 537
6.4 本章小結 541
第7章 情感分析—我很高興 542
7.1 情感分析 542
7.2 使用機器學習的情感分析 548
7.3 本章小結 572
第8章 信息檢索—訪問信息 573
8.1 信息檢索 573
8.1.1 停用詞刪除 574
8.1.2 利用向量空間模型進行
信息檢索 576
8.2 向量空間評分以及與查詢
操作器互動 583
8.3 利用隱含語義索引開發IR
系統 586
8.4 文本摘要 587
8.5 問答系統 588
8.6 本章小結 589
第9章 話語分析—知識就是信仰 590
9.1 話語分析 590
9.1.1 使用定中心理論進行
話語分析 595
9.1.2 回指解析 596
9.2 本章小結 601
第 10章 NLP系統的評估—
性能分析 602
10.1 對NLP系統進行評估的
需求 602
10.1.1 NLP工具(POS標註器、
詞幹還原器和形態分析器)
的評估 603
10.1.2 使用黃金數據評估
解析器 613
10.2 IR系統的評估 614
10.3 錯誤識別的指標 614
10.4 基於辭彙匹配的指標 615
10.5 基於語法匹配的指標 619
10.6 使用淺層語義匹配的
指標 620
10.7 本章小結 621
參考書目 622
第5章 NLP套用 54
5.1 構建第 一個NLP套用 54
5.2 其他的NLP套用 58
5.2.1 機器翻譯 58
5.2.2 統計機器翻譯 59
5.2.3 信息檢索 59
5.2.4 語音識別 61
5.2.5 文本分類 62
5.2.6 信息提取 63
5.2.7 問答系統 64
5.2.8 對話系統 64
5.2.9 詞義消歧 64
5.2.10 主題建模 64
5.2.11 語言檢測 65
5.2.12 光學字元識別 65
5.3 本章小結 65
第6章 文本分類 66
6.1 機器學習 67
6.2 文本分類 68
6.3 採樣 70
6.3.1 樸素貝葉斯 73
6.3.2 決策樹 75
6.3.3 隨機梯度下降 76
6.3.4 邏輯回歸 77
6.3.5 支持向量機 78
6.4 隨機森林算法 79
6.5 文本聚類 79
6.6 文本的主題建模 81
6.7 參考資料 83
6.8 本章小結 83
第7章 網路爬取 85
7.1 網路爬蟲 85
7.2 編寫第 一個爬蟲程式 86
7.3 Scrapy中的數據流 89
7.3.1 Scrapy命令行界面 89
7.3.2 項 94
7.4 站點地圖蜘蛛 96
7.5 項管道 97
7.6 外部參考 98
7.7 本章小結 99
第8章 與其他Python庫一同
使用NLTK 100
8.1 NumPy 100
8.1.1 ndarray 101
8.1.2 基本操作 102
8.1.3 從數組中提取數據 103
8.1.4 複雜的矩陣運算 103
8.2 SciPy 107
8.2.1 線性代數 108
8.2.3 稀疏矩陣 109
8.2.4 最佳化 110
8.3 Pandas 111
8.3.1 讀取數據 112
8.3.2 時序數據 114
8.3.3 列轉換 115
8.3.4 噪聲數據 116
8.4 Matplotlib 117
8.4.1 subplot 118
8.4.2 添加軸 119
8.4.3 散點圖 120
8.4.4 柱狀圖 120
8.4.5 3D圖 121
8.5 外部參考 121
8.6 本章小結 121
第9章 使用Python進行社交媒體
挖掘 122
9.1 數據收集 122
9.2 數據提取 126
9.3 地理可視化 128
9.3.1 影響者檢測 129
9.3.2 Facebook 130
9.3.3 影響者的朋友 134
9.4 本章小結 135
第 10章 大規模的文本挖掘 136
10.1 在Hadoop上使用Python的
不同方法 136
10.1.1 Python的流 137
10.1.2 Hive/Pig UDF 137
10.1.3 流包裝器 137
10.2 在Hadoop上運行NLTK 138
10.2.1 UDF 138
10.2.2 Python流 140
10.3 在Hadoop上運行
Scikit-learn 141
10.4 PySpark 144
10.5 本章小結 146
模組2 使用Python 3的NLTK 3進行文本處理
第 1章 標記文本和WordNet的基礎 149
1.1 引言 149
1.2 將文本標記成句子 150
1.2.1 準備工作 150
1.2.2 工作方式 151
1.2.3 工作原理 151
1.2.4 更多信息 151
1.2.5 請參閱 152
1.3 將句子標記成單詞 152
1.3.1 工作方式 152
1.3.2 工作原理 153
1.3.3 更多信息 153
1.3.4 請參閱 154
1.4 使用正則表達式標記語句 154
1.4.1 準備工作 155
1.4.2 工作方式 155
1.4.3 工作原理 155
1.4.4 更多信息 155
1.4.5 請參閱 156
1.5 訓練語句標記生成器 156
1.5.1 準備工作 156
1.5.2 工作方式 156
1.5.3 工作原理 157
1.5.4 更多信息 158
1.5.5 請參閱 158
1.6 在已標記的語句中過濾
停用詞 158
1.6.1 準備工作 158
1.6.2 工作方式 159
1.6.3 工作原理 159
1.6.4 更多信息 159
1.6.5 請參閱 160
1.7 查找WordNet中單詞的
Synset 160
1.7.1 準備工作 160
1.7.2 工作方式 160
1.7.3 工作原理 161
1.7.4 更多信息 161
1.7.5 請參閱 163
1.8 在WordNet中查找詞元和
同義詞 163
1.8.1 工作方式 163
1.8.2 工作原理 163
1.8.3 更多信息 163
1.8.4 請參閱 165
1.9 計算WordNet和Synset的
相似度 165
1.9.1 工作方式 165
1.9.2 工作原理 165
1.9.3 更多信息 166
1.9.4 請參閱 167
1.10 發現單詞搭配 167
1.10.1 準備工作 167
1.10.2 工作方式 167
1.10.3 工作原理 168
1.10.4 更多信息 168
1.10.5 請參閱 169
第 2章 替換和校正單詞 170
2.1 引言 170
2.2 詞幹提取 170
2.2.1 工作方式 171
2.2.2 工作原理 171
2.2.3 更多信息 171
2.2.4 請參閱 173
2.3 使用WordNet進行詞形還原 173
2.3.1 準備工作 173
2.3.2 工作方式 173
2.3.3 工作原理 174
2.3.4 更多信息 174
2.3.5 請參閱 175
2.4 基於匹配的正則表達式替換
單詞 175
2.4.1 準備工作 175
2.4.2 工作方式 175
2.4.3 工作原理 176
2.4.4 更多信息 177
2.4.5 請參閱 177
2.5 移除重複字元 177
2.5.1 準備工作 177
2.5.2 工作方式 178
2.5.3 工作原理 178
2.5.4 更多信息 179
2.5.5 請參閱 179
2.6 使用Enchant進行拼寫校正 180
2.6.1 準備工作 180
2.6.2 工作方式 180
2.6.3 工作原理 181
2.6.4 更多信息 181
2.6.5 請參閱 183
2.7 替換同義詞 183
2.7.1 準備工作 183
2.7.2 工作方式 183
2.7.3 工作原理 184
2.7.4 更多信息 184
2.7.5 請參閱 185
2.8 使用反義詞替換否定形式 186
2.8.1 工作方式 186
2.8.2 工作原理 187
2.8.3 更多信息 187
2.8.4 請參閱 188
第3章 創建自定義語料庫 189
3.1 引言 189
3.2 建立自定義語料庫 190
3.2.1 準備工作 190
3.2.2 工作方式 190
3.2.3 工作原理 191
3.2.4 更多信息 192
3.2.5 請參閱 192
3.3 創建辭彙表語料庫 192
3.3.1 準備工作 192
3.3.2 工作方式 193
3.3.3 工作原理 193
3.3.4 更多信息 194
3.3.5 請參閱 194
3.4 創建已標記詞性單詞的
語料庫 195
3.4.1 準備工作 195
3.4.2 工作方式 195
3.4.3 工作原理 196
3.4.4 更多信息 196
3.4.5 請參閱 199
3.5 創建已組塊短語的語料庫 199
3.5.1 準備工作 199
3.5.2 工作方式 199
3.5.3 工作原理 201
3.5.4 更多信息 201
3.5.5 請參閱 203
3.6 創建已分類文本的語料庫 203
3.6.1 準備工作 204
3.6.2 工作方式 204
3.6.3 工作原理 204
3.6.4 更多信息 205
3.6.5 請參閱 206
3.7 創建已分類組塊語料庫
讀取器 206
3.7.1 準備工作 206
3.7.2 工作方式 207
3.7.3 工作原理 208
3.7.4 更多信息 209
3.7.5 請參閱 213
3.8 懶惰語料庫載入 213
3.8.1 工作方式 213
3.8.2 工作原理 214
3.8.3 更多信息 214
3.9 創建自定義語料庫視圖 215
3.9.1 工作方式 215
3.9.2 工作原理 216
3.9.3 更多信息 217
3.9.4 請參閱 218
3.10 創建基於MongoDB的
語料庫讀取器 218
3.10.1 準備工作 219
3.10.2 工作方式 219
3.10.3 工作原理 220
3.10.4 更多信息 221
3.10.5 請參閱 221
3.11 在加鎖檔案的情況下編輯
語料庫 221
3.11.1 準備工作 221
3.11.2 工作方式 221
3.11.3 工作原理 222
第4章 詞性標註 224
4.1 引言 224
4.2 默認標註 225
4.2.1 準備工作 225
4.2.2 工作方式 225
4.2.3 工作原理 226
4.2.4 更多信息 227
4.2.5 請參閱 228
4.3 訓練一元組詞性標註器 228
4.3.1 工作方式 228
4.3.2 工作原理 229
4.3.3 更多信息 230
4.3.4 請參閱 231
4.4 回退標註的組合標註器 231
4.4.1 工作方式 231
4.4.2 工作原理 232
4.4.3 更多信息 232
4.4.4 請參閱 233
4.5 訓練和組合N元標註器 233
4.5.1 準備工作 233
4.5.2 工作方式 233
4.5.3 工作原理 234
4.5.4 更多信息 235
4.5.5 請參閱 236
4.6 創建似然單詞標籤的
模型 236
4.6.1 工作方式 236
4.6.2 工作原理 237
4.6.3 更多信息 237
4.6.4 請參閱 238
4.7 使用正則表達式標註 238
4.7.1 準備工作 238
4.7.2 工作方式 238
4.7.3 工作原理 239
4.7.4 更多信息 239
4.7.5 請參閱 239
4.8 詞綴標籤 239
4.8.1 工作方式 239
4.8.2 工作原理 240
4.8.3 更多信息 240
4.8.4 請參閱 241
4.9 訓練布里爾標註器 241
4.9.1 工作方式 241
4.9.2 工作原理 242
4.9.3 更多信息 243
4.9.4 請參閱 244
4.10 訓練TnT標註器 244
4.10.1 工作方式 244
4.10.2 工作原理 244
4.10.3 更多信息 245
4.10.4 請參閱 246
4.11 使用WordNet進行
標註 246
4.11.1 準備工作 246
4.11.2 工作方式 247
4.11.3 工作原理 248
4.11.4 請參閱 248
4.12 標註專有名詞 248
4.12.1 工作方式 248
4.12.2 工作原理 249
4.12.3 請參閱 249
4.13 基於分類器的標註 249
4.13.1 工作方式 250
4.13.2 工作原理 250
4.13.3 更多信息 251
4.13.4 請參閱 252
4.14 使用NLTK訓練器訓練
標註器 253
4.14.1 工作方式 253
4.14.2 工作原理 254
4.14.3 更多信息 258
4.14.4 請參閱 260
第5章 提取組塊 261
5.1 引言 261
5.2 使用正則表達式組塊和
隔斷 262
5.2.1 準備工作 262
5.2.2 工作方式 262
5.2.3 工作原理 263
5.2.4 更多信息 265
5.2.5 請參閱 267
5.3 使用正則表達式合併和拆分
組塊 267
5.3.1 工作方式 267
5.3.2 工作原理 269
5.3.3 更多信息 270
5.3.4 請參閱 271
5.4 使用正則表達式擴展和刪除
組塊 271
5.4.1 工作方式 271
5.4.2 工作原理 272
5.4.3 更多信息 273
5.4.4 請參閱 273
5.5 使用正則表達式進行部分
解析 273
5.5.1 工作方式 273
5.5.2 工作原理 274
5.5.3 更多信息 275
5.5.4 請參閱 276
5.6 訓練基於標註器的組塊器 276
5.6.1 工作方式 276
5.6.2 工作原理 277
5.6.3 更多信息 278
5.6.4 請參閱 279
5.7 基於分類的分塊 279
5.7.1 工作方式 279
5.7.2 工作原理 282
5.7.3 更多信息 282
5.7.4 請參閱 283
5.8 提取命名實體 283
5.8.1 工作方式 283
5.8.2 工作原理 284
5.8.3 更多信息 284
5.8.4 請參閱 285
5.9 提取專有名詞組塊 285
5.9.1 工作方式 286
5.9.2 工作原理 286
5.9.3 更多信息 286
5.10 提取部位組塊 287
5.10.1 工作方式 288
5.10.2 工作原理 290
5.10.3 更多信息 290
5.10.4 請參閱 290
5.11 訓練命名實體組塊器 290
5.11.1 工作方式 290
5.11.2 工作原理 292
5.11.3 更多信息 292
5.11.4 請參閱 293
5.12 使用NLTK訓練器訓練
組塊器 293
5.12.1 工作方式 293
5.12.2 工作原理 294
5.12.3 更多信息 295
5.12.4 請參閱 299
第6章 轉換組塊與樹 300
6.1 引言 300
6.2 過濾句子中無意義的
單詞 301
6.2.1 準備工作 301
6.2.2 工作方式 301
6.2.3 工作原理 302
6.2.4 更多信息 302
6.2.5 請參閱 303
6.3 糾正動詞形式 303
6.3.1 準備工作 303
6.3.2 工作方式 303
6.3.3 工作原理 305
6.3.4 請參閱 306
6.4 交換動詞短語 306
6.4.1 工作方式 306
6.4.2 工作原理 307
6.4.3 更多信息 307
6.4.4 請參閱 307
6.5 交換名詞基數 308
6.5.1 工作方式 308
6.5.2 工作原理 309
6.5.3 請參閱 309
6.6 交換不定式短語 309
6.6.1 工作方式 309
6.6.2 工作原理 310
6.6.3 更多信息 310
6.6.4 請參閱 310
6.7 單數化複數名詞 310
6.7.1 工作方式 310
6.7.2 工作原理 311
6.7.3 請參閱 311
6.8 連結組塊變換 311
6.8.1 工作方式 311
6.8.2 工作原理 312
6.8.3 更多信息 312
6.8.4 請參閱 313
6.9 將組塊樹轉換為文本 313
6.9.1 工作方式 313
6.9.2 工作原理 314
6.9.3 更多信息 314
6.9.4 請參閱 314
6.10 平展深度樹 314
6.10.1 準備工作 315
6.10.2 工作方式 315
6.10.3 工作原理 316
6.10.4 更多信息 317
6.10.5 請參閱 318
6.11 創建淺樹 318
6.11.1 工作方式 318
6.11.2 工作原理 320
6.11.3 請參閱 320
6.12 轉換樹標籤 320
6.12.1 準備工作 320
6.12.2 工作方式 321
6.12.3 工作原理 322
6.12.4 請參閱 322
第7章 文本分類 323
7.1 引言 323
7.2 詞袋特徵提取 324
7.2.1 工作方式 324
7.2.2 工作原理 325
7.2.3 更多信息 325
7.2.4 請參閱 327
7.3 訓練樸素貝葉斯
分類器 327
7.3.1 準備工作 327
7.3.2 工作方式 328
7.3.3 工作原理 329
7.3.4 更多信息 330
7.3.5 請參閱 333
7.4 訓練決策樹分類器 334
7.4.1 工作方式 334
7.4.2 工作原理 335
7.4.3 更多信息 335
7.4.4 請參閱 337
7.5 訓練最大熵分類器 337
7.5.1 準備工作 337
7.5.2 工作方式 337
7.5.3 工作原理 338
7.5.4 更多信息 339
7.5.5 請參閱 340
7.6 訓練scikit-learn
分類器 340
7.6.1 準備工作 341
7.6.2 工作方式 341
7.6.3 工作原理 342
7.6.4 更多信息 343
7.6.5 請參閱 345
7.7 衡量分類器的精準率和
召回率 346
7.7.1 工作方式 346
7.7.2 工作原理 347
7.7.3 更多信息 348
7.7.4 請參閱 349
7.8 計算高信息量單詞 349
7.8.1 工作方式 350
7.8.2 工作原理 351
7.8.3 更多信息 352
7.8.4 請參閱 354
7.9 使用投票組合分類器 354
7.9.1 準備工作 355
7.9.2 工作方式 355
7.9.3 工作原理 356
7.9.4 請參閱 356
7.10 使用多個二元分類器
分類 357
7.10.1 準備工作 357
7.10.2 工作方式 357
7.10.3 工作原理 361
7.10.4 更多信息 362
7.10.5 請參閱 363
7.11 使用NLTK訓練器訓練
分類器 363
7.11.1 工作方式 363
7.11.2 工作原理 364
7.11.3 更多信息 365
7.11.4 請參閱 371
第8章 分散式進程和大型數據集的
處理 372
8.1 引言 372
8.2 使用execnet進行分散式
標註 372
8.2.1 準備工作 373
8.2.2 工作方式 373
8.2.3 工作原理 374
8.2.4 更多內容 375
8.2.5 請參閱 377
8.3 使用execnet進行分散式
組塊 377
8.3.1 準備工作 377
8.3.2 工作方式 377
8.3.3 工作原理 378
8.3.4 更多內容 379
8.3.5 請參閱 379
8.4 使用execnet並行處理
列表 379
8.4.1 工作方式 379
8.4.2 工作原理 380
8.4.3 更多內容 381
8.4.4 請參閱 381
8.5 在Redis中存儲頻率分布 382
8.5.1 準備工作 382
8.5.2 工作方式 382
8.5.3 工作原理 384
8.5.4 更多內容 385
8.5.5 請參閱 386
8.6 在Redis中存儲條件頻率
分布 386
8.6.1 準備工作 386
8.6.2 工作方式 386
8.6.3 工作原理 387
8.6.4 更多內容 388
8.6.5 請參閱 388
8.7 在Redis中存儲有序
字典 388
8.7.1 準備工作 388
8.7.2 工作方式 388
8.7.3 工作原理 390
8.7.4 更多內容 391
8.7.5 請參閱 392
8.8 使用Redis和execnet進行
分散式單詞評分 392
8.8.1 準備工作 392
8.8.2 工作方式 392
8.8.3 工作原理 393
8.8.4 更多內容 396
8.8.5 請參閱 396
第9章 解析特定的數據類型 397
9.1 引言 397
9.2 使用dateutil解析日期和
時間 398
9.2.1 準備工作 398
9.2.2 工作方式 398
9.2.3 工作原理 399
9.2.4 更多信息 399
9.2.5 請參閱 399
9.3 時區的查找和轉換 400
9.3.1 準備工作 400
9.3.2 工作方式 400
9.3.3 工作原理 402
9.3.4 更多信息 402
9.3.5 請參閱 403
9.4 使用lxml從HTML中提取
URL 403
9.4.1 準備工作 403
9.4.2 工作方式 403
9.4.3 工作原理 404
9.4.4 更多信息 404
9.4.5 請參閱 405
9.5 清理和剝離HTML 405
9.5.1 準備工作 405
9.5.2 工作方式 405
9.5.3 工作原理 405
9.5.4 更多信息 406
9.5.5 請參閱 406
9.6 使用BeautifulSoup轉換
9.6.1 準備工作 406
9.6.2 工作方式 406
9.6.3 工作原理 407
9.6.4 更多信息 407
9.6.5 請參閱 407
9.7 檢測和轉換字元編碼 407
9.7.1 準備工作 408
9.7.2 工作方式 408
9.7.3 工作原理 409
9.7.4 更多信息 409
9.7.5 請參閱 410
附錄A 賓州treebank詞性標籤 411
模組3 使用Python掌握自然語言處理
第 1章 使用字元串 417
1.1 標記化 417
1.1.1 將文本標記為句子 418
1.1.2 其他語言文字的標記化 418
1.1.3 將句子標記為單詞 419
1.1.4 使用TreebankWordTokenizer
進行標記化 420
1.1.5 使用正則表達式進行
標記化 421
1.2 規範化 424
1.2.1 消除標點符號 424
1.2.2 轉化為小寫和大寫 425
1.2.3 處理停用詞 425
1.2.4 計算英語中的停用詞 426
1.3 替代和糾正標記 427
1.3.1 使用正則表達式替換
單詞 427
1.3.2 使用一個文本替換另一個
文本的示例 428
1.3.3 在標記化之前進行
替代 428
1.3.4 處理重複的字元 428
1.3.5 刪除重複字元的示例 429
1.3.6 使用單詞的同義詞替換
單詞 430
1.4 在文本上套用齊夫定律 431
1.5 相似性量度 431
1.5.1 使用編輯距離算法套用
相似性量度 432
1.5.2 使用傑卡德係數套用
相似性量度 434
1.5.3 使用史密斯-沃特曼算法
套用相似性量度 434
1.5.4 其他字元串相似性指標 435
1.6 本章小結 436
第 2章 統計語言模型 437
2.1 單詞頻率 437
2.1.1 對給定文本進行最大
似然估計 441
2.1.2 隱馬爾可夫模型估計 448
2.2 在MLE模型上套用平滑 450
2.2.1 加一平滑法 450
2.2.2 古德-圖靈算法 451
2.2.3 聶氏估計 456
2.2.4 威滕 貝爾估計 457
2.3 為MLE指定回退機制 457
2.4 套用數據插值獲得混合和
匹配 458
2.5 套用困惑度評估語言模型 458
2.6 在建模語言中套用
梅特羅波利斯-黑斯廷斯算法 459
2.7 在語言處理中套用
吉布斯採樣 459
2.8 本章小結 461
第3章 詞語形態學—試一試 462
3.1 詞語形態學 462
3.2 詞根還原器 463
3.3 詞形還原 466
3.4 開發用於非英語語言的詞根
還原器 467
3.5 詞語形態分析器 469
3.6 詞語形態生成器 471
3.7 搜尋引擎 471
3.8 本章小結 475
第4章 詞性標註—識別單詞 476
4.1 詞性標註 476
4.2 創建POS標註的語料庫 482
4.3 選擇某個機器學習算法 484
4.4 涉及n元組方法的統計建模 486
4.5 使用POS標註的語料庫開發
組塊器 491
4.6 本章小結 494
第5章 解析—分析訓練數據 495
5.1 解析 495
5.2 構建樹庫 496
5.3 從樹庫中提取上下文無關文法的
規則 501
5.4 從CFG中創建機率上下文無關的
文法 507
5.5 CYK圖解析算法 509
5.6 厄雷圖解析算法 510
5.7 本章小結 516
第6章 語義分析—意義重大 517
6.1 語義分析 517
6.1.1 NER簡介 521
6.1.2 使用隱馬爾可夫模型
NER系統 525
6.1.3 使用機器學習工具包訓練
NER 530
6.1.4 使用POS標註的
NER 531
6.2 從Wordnet中生成同義詞集
ID 534
6.3 使用Wordnet消除歧義 537
6.4 本章小結 541
第7章 情感分析—我很高興 542
7.1 情感分析 542
7.2 使用機器學習的情感分析 548
7.3 本章小結 572
第8章 信息檢索—訪問信息 573
8.1 信息檢索 573
8.1.1 停用詞刪除 574
8.1.2 利用向量空間模型進行
信息檢索 576
8.2 向量空間評分以及與查詢
操作器互動 583
8.3 利用隱含語義索引開發IR
系統 586
8.4 文本摘要 587
8.5 問答系統 588
8.6 本章小結 589
第9章 話語分析—知識就是信仰 590
9.1 話語分析 590
9.1.1 使用定中心理論進行
話語分析 595
9.1.2 回指解析 596
9.2 本章小結 601
第 10章 NLP系統的評估—
性能分析 602
10.1 對NLP系統進行評估的
需求 602
10.1.1 NLP工具(POS標註器、
詞幹還原器和形態分析器)
的評估 603
10.1.2 使用黃金數據評估
解析器 613
10.2 IR系統的評估 614
10.3 錯誤識別的指標 614
10.4 基於辭彙匹配的指標 615
10.5 基於語法匹配的指標 619
10.6 使用淺層語義匹配的
指標 620
10.7 本章小結 621
參考書目 622

相關詞條

熱門詞條

聯絡我們