內容簡介
文本數據挖掘是通過機器學習、自然語言處理和推理等相關技術或方法,理解、分析和挖掘文本的內 容,從而完成信息抽取、關係發現、熱點預測、文本分類和自動摘要等具體任務的信息處理技術。《文本數據挖掘(第2版)》主 要介紹與文本數據挖掘有關的基本概念、理論模型和實現算法,包括數據預處理、文本表示、文本分類、文本聚類、主題模型、情感分析與觀點挖掘、話題檢測與跟蹤、信息抽取以及文本自動摘要等,最後通過 具體實例展示相關技術在實際套用中的使用方法。《文本數據挖掘(第2版)》書可作為高等院校計算機、自動化、網路安全、大數據分析等專業,以及利用到文本信息處理的交 叉學科(如金融財經、社會人文、生物醫藥等)的高年級本科生或研究生從事相關研究的入門參考書,也可供相關技術研發人員閱讀和參考。
圖書目錄
第 1章緒論 .......................................................................................................1
1.1基本概念 ................................................................................................1
1.2文本挖掘任務 .........................................................................................2
1.3文本挖掘面臨的困難 ...............................................................................5
1.4方法概述與本書的內容組織 .....................................................................8
1.5進一步閱讀 ........................................................................................... 10
習題 ............................................................................................................ 11
第 2章數據預處理和標註 ................................................................................. 12
2.1概述 ..................................................................................................... 12
2.2數據獲取 .............................................................................................. 12
2.3數據預處理 ........................................................................................... 16
2.4數據標註 .............................................................................................. 18
2.5基本工具 .............................................................................................. 20
2.5.1漢語自動分詞與詞性標註 ............................................................ 20
2.5.2句法分析 ................................................................................... 22
2.5.3 n元語法模型 ............................................................................. 23
2.6進一步閱讀 ........................................................................................... 24
習題 ............................................................................................................ 24
第 3章文本表示 ............................................................................................... 25
3.1概述 ..................................................................................................... 25
3.2向量空間模型 ....................................................................................... 25
3.2.1向量空間模型的基本概念 ............................................................ 25
3.2.2特徵項的構造與權重 ................................................................... 26
3.2.3文本長度規範化 ......................................................................... 27
3.2.4特徵工程 ................................................................................... 28
3.2.5其他文本表示方法 ...................................................................... 30
3.3詞的分散式表示 .................................................................................... 31
3.3.1神經網路語言模型 ...................................................................... 32
3.3.2 C&W模型 ................................................................................. 36
3.3.3 CBOW與 Skip-gram模型 .......................................................... 38
3.3.4噪聲對比估計與負採樣 ............................................................... 39
3.3.5字詞混合的分散式表示方法 ......................................................... 41
3.4短語的分散式表示 ................................................................................. 43
3.4.1基於詞袋的分散式表示 ............................................................... 43
3.4.2基於自動編碼器的分散式表示 ..................................................... 43
3.5句子的分散式表示 ................................................................................. 46
3.5.1通用的句子表示 ......................................................................... 46
3.5.2任務相關的句子表示 ................................................................... 49
3.6文檔的分散式表示 ................................................................................. 52
3.6.1通用的文檔分散式表示 ............................................................... 53
3.6.2任務相關的文檔分散式表示 ......................................................... 55
3.7進一步閱讀 ........................................................................................... 56
習題 ............................................................................................................ 57
第 4章預訓練語言模型 ..................................................................................... 58
4.1概述 ..................................................................................................... 58
4.2 ELMo:源自語言模型的語境化分散式向量表示 ....................................... 58
4.2.1基於雙向 LSTM的語言模型 ....................................................... 59
4.2.2適應下游任務的語境化 ELMo詞向量 .......................................... 60
4.3 GPT:生成式預訓練模型 ....................................................................... 61
4.3.1 Transformer................................................................................62
4.3.2 GPT預訓練 .............................................................................. 63
4.3.3 GPT微調 .................................................................................. 64
4.4 BERT:雙向 Transformer編碼表示 ........................................................ 65
4.4.1 BERT預訓練 ............................................................................ 66
4.4.2 BERT微調 ................................................................................ 68
4.4.3 XLNet:廣義自回歸預訓練模型 ................................................... 68
4.4.4 UniLM ....................................................................................... 71
4.5進一步閱讀 ........................................................................................... 72
習題 ............................................................................................................ 72
第 5章文本分類 ............................................................................................... 74
5.1概述 ..................................................................................................... 74
5.2傳統文本表示 ....................................................................................... 75
5.3特徵選擇 .............................................................................................. 76
5.3.1互信息法 ................................................................................... 76
5.3.2信息增益法 ................................................................................ 79
5.3.3卡方統計量法 ............................................................................. 80
5.3.4其他方法 ................................................................................... 81
5.4傳統分類算法 ....................................................................................... 82
5.4.1樸素貝葉斯模型 ......................................................................... 82
5.4.2 logistic回歸、 softmax回歸與最大熵模型 ..................................... 84
5.4.3支持向量機 ................................................................................ 86
5.4.4集成學習 ................................................................................... 88
5.5深度神經網路方法 ................................................................................. 89
5.5.1基於前饋神經網路的文本分類方法 ............................................... 89
5.5.2基於卷積神經網路的文本分類方法 ............................................... 89
5.5.3基於循環神經網路的文本分類方法 ............................................... 91
5.6文本分類性能評估 ................................................................................. 94
5.7進一步閱讀 ........................................................................................... 97
習題 ............................................................................................................ 97
第 6章文本聚類 ............................................................................................... 99
6.1概述 ..................................................................................................... 99
6.2文本相似性度量 .................................................................................... 99
6.2.1樣本間的相似性 ....................................................................... 100
6.2.2簇間的相似性 ........................................................................... 102
6.2.3樣本與簇之間的相似性 ............................................................. 103
6.3文本聚類算法 ..................................................................................... 103
6.3.1 K-均值聚類 ............................................................................. 103
6.3.2單遍聚類 ................................................................................. 107
6.3.3層次聚類 ................................................................................. 108
6.3.4密度聚類 ................................................................................. 111
6.4性能評估 ............................................................................................ 113
6.4.1外部標準 ................................................................................. 113
6.4.2內部標準 ................................................................................. 115
6.5進一步閱讀 ......................................................................................... 115
習題 .......................................................................................................... 116
第 7章主題模型 ............................................................................................. 117
7.1概述 ................................................................................................... 117
文本數據挖掘 (第 2版)
7.2潛在語義分析 ..................................................................................... 118
7.2.1詞項-文檔矩陣的奇異值分解 ...................................................... 118
7.2.2詞項和文檔的概念表示及相似度計算 ......................................... 121
7.3機率潛在語義分析 ............................................................................... 123
7.3.1模型假設 ................................................................................. 123
7.3.2參數學習 ................................................................................. 124
7.4潛在狄利克雷分布 ............................................................................... 125
7.4.1模型假設 ................................................................................. 125
7.4.2詞項和主題序列的聯合機率 ....................................................... 127
7.4.3模型推斷 ................................................................................. 129
7.4.4新文檔的推斷 ........................................................................... 131
7.4.5 PLSA與 LDA的聯繫與區別 ..................................................... 132
7.5進一步閱讀 ......................................................................................... 132
習題 .......................................................................................................... 133
第 8章情感分析與觀點挖掘 ............................................................................ 135
8.1概述 ................................................................................................... 135
8.2情感分析任務類型 ............................................................................... 136
8.2.1按目標形式劃分 ....................................................................... 136
8.2.2按分析粒度劃分 ....................................................................... 137
8.3文檔或句子級情感分析方法 ................................................................. 139
8.3.1基於規則的無監督情感分類 ....................................................... 140
8.3.2基於傳統機器學習的監督情感分類 ............................................. 141
8.3.3深度神經網路方法 .................................................................... 144
8.4詞語級情感分析與情感詞典構建 ........................................................... 146
8.4.1基於語義知識庫的方法 ............................................................. 147
8.4.2基於語料庫的方法 .................................................................... 147
8.4.3情感詞典性能評估 .................................................................... 149
8.5屬性級情感分析 .................................................................................. 150
8.5.1屬性抽取 ................................................................................. 150
8.5.2屬性情感分類 ........................................................................... 153
8.5.3主題與情感的生成式建模 .......................................................... 157
8.6情感分析中的特殊問題 ........................................................................ 159
8.6.1情感極性轉移問題 .................................................................... 159
8.6.2領域適應問題 ........................................................................... 160
8.7文本情緒分析 ..................................................................................... 163
8.7.1心理學情緒理論 ....................................................................... 163
8.7.2文本情緒識別 ........................................................................... 163
8.7.3情緒原因挖掘 ........................................................................... 165
8.8進一步閱讀 ......................................................................................... 167
習題 .......................................................................................................... 168
第 9章話題檢測與跟蹤................................................................................... 170
9.1概述 ................................................................................................... 170
9.2術語與任務 ......................................................................................... 172
9.2.1術語 ........................................................................................ 172
9.2.2任務 ........................................................................................ 173
9.3報導或話題的表示與相似性計算 ........................................................... 175
9.4話題檢測 ............................................................................................ 177
9.4.1話題線上檢測 ........................................................................... 177
9.4.2話題回溯檢測 ........................................................................... 179
9.5話題跟蹤 ............................................................................................ 179
9.6評估方法 ............................................................................................ 181
9.7社交媒體話題檢測與跟蹤 ..................................................................... 182
9.7.1社交媒體話題檢測 .................................................................... 182
9.7.2社交媒體話題跟蹤 .................................................................... 184
9.8突發話題檢測 ..................................................................................... 184
9.8.1突髮狀態識別 ........................................................................... 185
9.8.2以文檔為中心的方法 ................................................................. 187
9.8.3以特徵為中心的方法 ................................................................. 188
9.9進一步閱讀 ......................................................................................... 190
習題 .......................................................................................................... 190
第 10章信息抽取........................................................................................... 191
10.1概述 ................................................................................................. 191
10.2命名實體識別 .................................................................................... 193
10.2.1基於規則的命名實體識別方法 ................................................ 194
10.2.2基於有監督學習的命名實體識別方法 ...................................... 195
10.2.3半監督的命名實體識別方法 .................................................... 201
10.2.4命名實體識別方法評價 .......................................................... 203
10.3共指消解 .......................................................................................... 204
10.3.1基於規則的共指消解方法 ....................................................... 205
10.3.2數據驅動的共指消解方法 ....................................................... 207
10.3.3共指消解評價 ........................................................................ 210
10.4實體消歧 .......................................................................................... 213
10.4.1基於聚類的實體消歧方法 ....................................................... 213
10.4.2基於連結的實體消歧 .............................................................. 217
10.4.3實體消歧任務的評價方法 ....................................................... 223
10.5關係抽取 .......................................................................................... 224
10.5.1基於離散特徵的關係分類方法 ................................................ 226
10.5.2基於分散式特徵的關係分類方法 ............................................. 232
10.5.3基於遠程監督的關係分類方法 ................................................ 234
10.5.4關係分類性能評價 ................................................................. 235
10.5.5知識圖譜 .............................................................................. 235
10.6事件抽取 .......................................................................................... 236
10.6.1事件描述模板 ........................................................................ 236
10.6.2事件抽取方法 ........................................................................ 238
10.6.3事件抽取評價 ........................................................................ 245
10.6.4事理圖譜 .............................................................................. 245
10.7進一步閱讀 ....................................................................................... 246
習題 .......................................................................................................... 247
第 11章文本自動摘要 .................................................................................... 248
11.1概述 ................................................................................................. 248
11.2抽取式自動摘要 ................................................................................ 249
11.2.1句子重要性評估 .................................................................... 250
11.2.2基於約束的摘要生成方法 ....................................................... 258
11.3壓縮式自動摘要方法 .......................................................................... 259
11.3.1句子壓縮方法 ........................................................................ 259
11.3.2基於句子壓縮的自動摘要方法 ................................................ 263
11.4理解式自動摘要 ................................................................................ 265
11.4.1基於信息融合的生成式摘要方法 ............................................. 265
11.4.2基於編碼-解碼的生成式摘要方法 ............................................ 270
11.5基於查詢的自動摘要 .......................................................................... 272
11.5.1基於語言模型的相關性計算方法 ............................................. 272
11.5.2基於關鍵字語重合度的相關性計算方法 ................................... 273
11.5.3基於圖模型的相關性計算方法 ................................................ 273
11.6跨語言和多語言自動摘要方法 ............................................................ 274
11.6.1跨語言自動摘要 .................................................................... 274
11.6.2多語言自動摘要 .................................................................... 277
11.7摘要質量評估方法和相關評測 ............................................................ 279
11.7.1摘要質量評估方法 ................................................................. 279
11.7.2相關評測活動 ........................................................................ 283
11.8進一步閱讀 ....................................................................................... 285
習題 .......................................................................................................... 285
第 12章技術套用 ........................................................................................... 288
12.1概述 ................................................................................................. 288
12.2電子病歷分析與挖掘系統 ................................................................... 289
12.2.1任務目標 .............................................................................. 289
12.2.2數據準備和標註 .................................................................... 290
12.2.3系統實現 .............................................................................. 292
12.3多語言政策法規分析與挖掘系統 ......................................................... 300
12.3.1任務目標 .............................................................................. 300
12.3.2數據採集和標註 .................................................................... 301
12.3.3系統實現 .............................................................................. 302
習題 .......................................................................................................... 302
參考文獻 ........................................................................................................... 303
名詞術語索引 ..................................................................................................... 327