線上文本數據挖掘算法原理與編程實現

線上文本數據挖掘算法原理與編程實現

《線上文本數據挖掘 算法原理與編程實現》是2019年8月電子工業出版社出版的圖書,作者是劉通。

基本介紹

  • 書名:線上文本數據挖掘  算法原理與編程實現
  • 作者:劉通
  • ISBN:9787121356322 
  • 頁數:352頁   
  • 定價:88元
  • 出版社:電子工業出版社
  • 出版時間:2019年8月   
  • 開本:16開
內容簡介,目錄,

內容簡介

本書介紹了網際網路環境下文本類型數據的分析方法,探討囑婆拔辯了當前主流的文本挖掘技術,以及這些技術在商業環境中的具體套用。本書從算法原理和套用場景兩方面分別對線上文本分析技術進行了介紹:從算法原理的角度,以數據挖掘和機器學習的相關知識為基礎,介紹了以文本建模、文本分類、文本聚類、序列標註為主要任務的文本分析方法,並對當前主流的深度學習方法與文本分析的結合進行了討論。從套用場景的角度,討論了文本分析技術的幾個重要實踐領域,包括信息檢索、內容摘要、口碑分析、社交網路分析以及智慧型系統。

目錄

第1章 概述 1
1.1 網路運營與文本分析 1
1.1.1 網際網路運營設匙捆的戰略思維 1
1.1.2 網路運營與大燥台數據文本分析 2
1.2 文本分析的4V特徵 4
1.2.1 Volume特徵 4
1.2.2 Variety特徵 5
1.2.3 Value特徵 6
1.2.4 Velocity特徵 7
1.3 線上文本分析套用 8
1.3.1 線上文本分析的管理類套用閥拘廈元 9
1.3.2 線上文本分析的內容類套用 12
1.4 本章小結 16
第2章 預備知識 18
2.1 文本挖掘的主要任務 18
2.2 語義分析與語法己懂牛分析 20
2.3 文本的結構化分析 21
2.4 文本的標準化分析 24
2.5 機器學習的基本概念 24
2.5.1 機器學習與深度學習 25
2.5.2 機器學習的基本要素 33
2.6 機器學習的重要問題 36
2.6.1 機率圖模匪阿想型 36
2.6.2 判別式模型和產生式模型 39
2.6.3 機器學習模型求解 40
2.6.4 模型過擬合 43
2.7 本章小結 45
第3章 文本建模 46
3.1 文本建模的基本概念 46
3.2 文本建模的套用場景 48
3.2.1 主體角色識別 48
3.2.2 語言風格分析 49
3.2.3 智慧型系統 49
3.2.4 文本表示 50
3.2.5 文本降維 50
3.2.6 話題分析 50
3.3 語言學建模概述 51
3.4 詞標註分析 52
3.5 句法漿婚盛分析 55
3.5.1 轉換生成語法 56
3.5.2 依存句法 56
3.6 知識庫與語義網 58
3.7 統計學建模概述 59
3.8 向量空間模型 61
3.9 LSI模型 64
3.9.1 SVD 64
3.9.2 基於SVD的降維分析 66
3.10 Unigram模型 67
3.11 pLSI模型 67
3.11.1 pLSI的模型結構 67
3.11.2 pLSI的參數估計 68
3.12 LDA主題模型 70
3.12.1 LDA的模型結構 70
3.12.2 LDA的參數估計 72
3.13 主題模型拓展 75
3.13.1 相關主題模型 76
3.13.2 層次主題模型 77
3.13.3 動態主題模型 80
3.13.4 句子主題模型 82
3.14 基於辭彙的統計學建模方法 83
3.15 本章小結 86
第4章 文本分類 88
4.1 文本分類的基本概念 88
4.2 文本分類的套用場景 89
4.2.1 文檔有用性判斷 89
4.2.2 口碑情感分析 90
4.2.3 負面信息識別 90
4.2.4 信息檢索 90
4.3 樸素貝葉斯模型 91
4.3.1 貝努利模型 91
4.3.2 多項式模型 93
4.3.3 模型參數平滑 94
4.4 向量空間模型 95
4.4.1 Rocchio方法 95
4.4.2 KNN方法 96
4.5 SVM模型 97
4.5.1 硬間隔SVM 97
4.5.2 軟間隔SVM 100
4.6 文本分類的評價 102
4.6.1 二元分類評價 102
4.6.2 多類問題評價 104
4.6.3 分類測試集 105
4.7 分類特徵最佳化 106
4.7.1 分類特徵提取 106
4.7.2 分類特徵轉化 112
4.7.3 分類特徵擴展 114
4.8 分類學習策略最佳化 117
4.8.1 AdaBoost算法 117
4.8.2 主動式學習 118
4.8.3 遷移學習 119
4.9 本章小結 119
第5章 文本聚類 121
5.1 文本聚類的基本概念 121
5.2 文本聚類的套用場景 122
5.2.1 探索分析 122
5.2.2 降維 123
5.2.3 信息檢索 123
5.3 扁平式聚類 124
5.3.1 K-均值算法 125
5.3.2 基於模型的聚類 128
5.4 凝聚式聚類 132
5.4.1 層次聚類 132
5.4.2 基於簇距離的聚類過程 132
5.4.3 算法停止條件 135
5.5 聚類結果分析 136
5.5.1 聚類算法評估 136
5.5.2 聚類標籤生成 138
5.6 聚類特徵最佳化 140
5.6.1 基於疊代的方法 141
5.6.2 無監督指標 141
5.7 半監督聚類 143
5.7.1 遷移學習 144
5.7.2 AP算法 145
5.8 短文本聚類 146
5.8.1 文本特徵補充 146
5.8.2 TermCut算法 148
5.8.3 Dirichlet多項式混合模型 149
5.9 流數據聚類 151
5.9.1 OSKM算法 151
5.9.2 可拓展K-means算法 152
5.10 本章小結 153
第6章 序列標註 155
6.1 序列標註的基本概念 155
6.2 序列標註的套用場景 157
6.2.1 詞性標註 157
6.2.2 命名實體識別 157
6.2.3 分詞 157
6.3 HMM 158
6.3.1 HMM的機率計算問題 160
6.3.2 HMM的學習問題 162
6.2.3 HMM的預測問題 164
6.4 最大熵模型和最大熵馬爾可夫模型 166
6.4.1 最大熵模型 167
6.4.2 最大熵馬爾可夫模型 170
6.5 條件隨機場 172
6.5.1 標註偏置問題 172
6.5.2 條件隨機場的基本原理 174
6.6 本章小結 176
第7章 信息檢索 177
7.1 信息檢索的基本概念 177
7.2 信息檢索的套用場景 180
7.2.1 搜尋引擎 180
7.2.2 內容推薦 182
7.3 基於空間模型的信息檢索 184
7.3.1 文檔查找 184
7.3.2 文檔排序 185
7.3.3 系統評價 187
7.4 基於機率模型的信息檢索 190
7.4.1 二值獨立模型 191
7.4.2 模型參數估計 193
7.5 基於語言模型的信息檢索 196
7.5.1 語言模型 196
7.5.2 查詢似然模型 198
7.6 本章小結 201
第8章 文本摘要 203
8.1 文本摘要的基本概念 203
8.2 文本摘要的套用場景 206
8.2.1 信息檢索 206
8.2.2 信息壓縮 207
8.2.3 用戶畫像 208
8.2.4 知識管理 209
8.3 關鍵字提取的特徵設計 210
8.3.1 詞頻特徵 210
8.3.2 辭彙基礎特徵 211
8.3.3 辭彙位置特徵 212
8.3.4 辭彙標記特徵 214
8.4 關鍵字提取的有監督算法 214
8.5 關鍵字提取的無監督算法 217
8.5.1 簡單指標設計 217
8.5.2 複合指標設計 217
8.6 基於圖模型的關鍵字提取算法 218
8.6.1 圖模型靜態指標算法 220
8.6.2 圖模型動態指標算法 223
8.7 關鍵字提取的技術最佳化 226
8.7.1 長文本問題最佳化 227
8.7.2 短文本問題最佳化 228
8.7.3 多主題特徵最佳化 229
8.7.4 時序特徵最佳化 232
8.7.5 歧義問題最佳化 233
8.8 關鍵短語提取 234
8.8.1 短語性指標 235
8.8.2 信息性指標 235
8.9 關鍵句提取 236
8.9.1 基於辭彙關鍵性的方法 236
8.9.2 基於句子特徵的方法 237
8.9.3 基於圖模型的方法 238
8.10 本章小結 240
第9章 口碑分析 241
9.1 口碑分析的基本概念 242
9.2 口碑分析的套用場景 243
9.2.1 用戶視角的套用 243
9.2.2 網站運營者視角的套用 244
9.2.3 商家視角的套用 244
9.2.4 其他套用 245
9.3 基於詞典的評價對象提取 245
9.4 基於語料的評價對象提取 246
9.5 評價水平量化 252
9.5.1 整體粗粒度情感分析 253
9.5.2 整體細粒度情感分析 254
9.5.3 局部粗粒度情感分析 258
9.5.4 局部細粒度情感分析 259
9.6 基於語言模型的情感分析技術 259
9.6.1 最大熵LDA主題模型:模型性質 260
9.6.2 最大熵LDA主題模型:基本結構 260
9.6.3 最大熵LDA主題模型:參數估計 263
9.7 本章小結 265
第10章 社交網路分析 266
10.1 社交網路分析的基本概念 266
10.2 社交網路分析的套用場景 269
10.2.1 虛擬社區發現 270
10.2.2 用戶影響力分析 271
10.2.3 情感分析 271
10.2.4 話題發現與演化 272
10.2.5 信息檢索 273
10.3 社交網路的虛擬社區發現 274
10.3.1 社區發現的信息基礎 274
10.3.2 基於隱性位置的聚類模型 275
10.4 社交網路的用戶影響力分析 276
10.4.1 網路結構與用戶影響力 276
10.4.2 TwitterRank算法 277
10.5 社交網路的情感分析 279
10.5.1 基於表情符號的訓練集合構建 279
10.5.2 基於POSTag的特徵最佳化 280
10.6 社交網路的話題發現與演化 282
10.6.1 話題發現分析 282
10.6.2 Twitter-LDA 284
10.6.3 基於文檔聚類的話題發現 284
10.6.4 基於辭彙聚類的話題發現 286
10.6.5 話題演化分析 287
10.6.6 基於NMF的主題建模 287
10.7 社交網路的信息檢索 289
10.7.1 信息檢索的內容拓展策略 290
10.7.2 信息檢索的綜合排序策略 291
10.8 本章小結 293
第11章 深度學習與NLP 295
11.1 基本原理 296
11.2 詞嵌入模型 299
11.2.1 辭彙的分散式表示 299
11.2.2 神經機率語言模型 300
11.2.3 詞嵌入模型概述 301
11.3 RNN與NLP 304
11.3.1 RNN 304
11.3.2 基於RNN的機器翻譯 305
11.3.3 RNN的其他套用 308
11.4 本章小結 309
第12章 實證研究 311
12.1 研究架構 311
12.1.1 研究問題背景 311
12.1.2 問題分析 313
12.2 理論與模型 314
12.2.1 相關理論與假設 314
12.2.2 模型構建 317
12.3 文本數據處理 319
12.3.1 基於文本分析的口碑打分調整 319
12.3.2 基於文本分析的口碑權重計算 323
12.3.3 基於文本分析的候選集合構建 324
12.4 研究結論 326
12.4.1 實證結果 326
12.4.2 管理建議 328
12.5 本章小結 329
第13章 總結 330,第1章 概述 1
1.1 網路運營與文本分析 1
1.1.1 網際網路運營的戰略思維 1
1.1.2 網路運營與大數據文本分析 2
1.2 文本分析的4V特徵 4
1.2.1 Volume特徵 4
1.2.2 Variety特徵 5
1.2.3 Value特徵 6
1.2.4 Velocity特徵 7
1.3 線上文本分析套用 8
1.3.1 線上文本分析的管理類套用 9
1.3.2 線上文本分析的內容類套用 12
1.4 本章小結 16
第2章 預備知識 18
2.1 文本挖掘的主要任務 18
2.2 語義分析與語法分析 20
2.3 文本的結構化分析 21
2.4 文本的標準化分析 24
2.5 機器學習的基本概念 24
2.5.1 機器學習與深度學習 25
2.5.2 機器學習的基本要素 33
2.6 機器學習的重要問題 36
2.6.1 機率圖模型 36
2.6.2 判別式模型和產生式模型 39
2.6.3 機器學習模型求解 40
2.6.4 模型過擬合 43
2.7 本章小結 45
第3章 文本建模 46
3.1 文本建模的基本概念 46
3.2 文本建模的套用場景 48
3.2.1 主體角色識別 48
3.2.2 語言風格分析 49
3.2.3 智慧型系統 49
3.2.4 文本表示 50
3.2.5 文本降維 50
3.2.6 話題分析 50
3.3 語言學建模概述 51
3.4 詞標註分析 52
3.5 句法分析 55
3.5.1 轉換生成語法 56
3.5.2 依存句法 56
3.6 知識庫與語義網 58
3.7 統計學建模概述 59
3.8 向量空間模型 61
3.9 LSI模型 64
3.9.1 SVD 64
3.9.2 基於SVD的降維分析 66
3.10 Unigram模型 67
3.11 pLSI模型 67
3.11.1 pLSI的模型結構 67
3.11.2 pLSI的參數估計 68
3.12 LDA主題模型 70
3.12.1 LDA的模型結構 70
3.12.2 LDA的參數估計 72
3.13 主題模型拓展 75
3.13.1 相關主題模型 76
3.13.2 層次主題模型 77
3.13.3 動態主題模型 80
3.13.4 句子主題模型 82
3.14 基於辭彙的統計學建模方法 83
3.15 本章小結 86
第4章 文本分類 88
4.1 文本分類的基本概念 88
4.2 文本分類的套用場景 89
4.2.1 文檔有用性判斷 89
4.2.2 口碑情感分析 90
4.2.3 負面信息識別 90
4.2.4 信息檢索 90
4.3 樸素貝葉斯模型 91
4.3.1 貝努利模型 91
4.3.2 多項式模型 93
4.3.3 模型參數平滑 94
4.4 向量空間模型 95
4.4.1 Rocchio方法 95
4.4.2 KNN方法 96
4.5 SVM模型 97
4.5.1 硬間隔SVM 97
4.5.2 軟間隔SVM 100
4.6 文本分類的評價 102
4.6.1 二元分類評價 102
4.6.2 多類問題評價 104
4.6.3 分類測試集 105
4.7 分類特徵最佳化 106
4.7.1 分類特徵提取 106
4.7.2 分類特徵轉化 112
4.7.3 分類特徵擴展 114
4.8 分類學習策略最佳化 117
4.8.1 AdaBoost算法 117
4.8.2 主動式學習 118
4.8.3 遷移學習 119
4.9 本章小結 119
第5章 文本聚類 121
5.1 文本聚類的基本概念 121
5.2 文本聚類的套用場景 122
5.2.1 探索分析 122
5.2.2 降維 123
5.2.3 信息檢索 123
5.3 扁平式聚類 124
5.3.1 K-均值算法 125
5.3.2 基於模型的聚類 128
5.4 凝聚式聚類 132
5.4.1 層次聚類 132
5.4.2 基於簇距離的聚類過程 132
5.4.3 算法停止條件 135
5.5 聚類結果分析 136
5.5.1 聚類算法評估 136
5.5.2 聚類標籤生成 138
5.6 聚類特徵最佳化 140
5.6.1 基於疊代的方法 141
5.6.2 無監督指標 141
5.7 半監督聚類 143
5.7.1 遷移學習 144
5.7.2 AP算法 145
5.8 短文本聚類 146
5.8.1 文本特徵補充 146
5.8.2 TermCut算法 148
5.8.3 Dirichlet多項式混合模型 149
5.9 流數據聚類 151
5.9.1 OSKM算法 151
5.9.2 可拓展K-means算法 152
5.10 本章小結 153
第6章 序列標註 155
6.1 序列標註的基本概念 155
6.2 序列標註的套用場景 157
6.2.1 詞性標註 157
6.2.2 命名實體識別 157
6.2.3 分詞 157
6.3 HMM 158
6.3.1 HMM的機率計算問題 160
6.3.2 HMM的學習問題 162
6.2.3 HMM的預測問題 164
6.4 最大熵模型和最大熵馬爾可夫模型 166
6.4.1 最大熵模型 167
6.4.2 最大熵馬爾可夫模型 170
6.5 條件隨機場 172
6.5.1 標註偏置問題 172
6.5.2 條件隨機場的基本原理 174
6.6 本章小結 176
第7章 信息檢索 177
7.1 信息檢索的基本概念 177
7.2 信息檢索的套用場景 180
7.2.1 搜尋引擎 180
7.2.2 內容推薦 182
7.3 基於空間模型的信息檢索 184
7.3.1 文檔查找 184
7.3.2 文檔排序 185
7.3.3 系統評價 187
7.4 基於機率模型的信息檢索 190
7.4.1 二值獨立模型 191
7.4.2 模型參數估計 193
7.5 基於語言模型的信息檢索 196
7.5.1 語言模型 196
7.5.2 查詢似然模型 198
7.6 本章小結 201
第8章 文本摘要 203
8.1 文本摘要的基本概念 203
8.2 文本摘要的套用場景 206
8.2.1 信息檢索 206
8.2.2 信息壓縮 207
8.2.3 用戶畫像 208
8.2.4 知識管理 209
8.3 關鍵字提取的特徵設計 210
8.3.1 詞頻特徵 210
8.3.2 辭彙基礎特徵 211
8.3.3 辭彙位置特徵 212
8.3.4 辭彙標記特徵 214
8.4 關鍵字提取的有監督算法 214
8.5 關鍵字提取的無監督算法 217
8.5.1 簡單指標設計 217
8.5.2 複合指標設計 217
8.6 基於圖模型的關鍵字提取算法 218
8.6.1 圖模型靜態指標算法 220
8.6.2 圖模型動態指標算法 223
8.7 關鍵字提取的技術最佳化 226
8.7.1 長文本問題最佳化 227
8.7.2 短文本問題最佳化 228
8.7.3 多主題特徵最佳化 229
8.7.4 時序特徵最佳化 232
8.7.5 歧義問題最佳化 233
8.8 關鍵短語提取 234
8.8.1 短語性指標 235
8.8.2 信息性指標 235
8.9 關鍵句提取 236
8.9.1 基於辭彙關鍵性的方法 236
8.9.2 基於句子特徵的方法 237
8.9.3 基於圖模型的方法 238
8.10 本章小結 240
第9章 口碑分析 241
9.1 口碑分析的基本概念 242
9.2 口碑分析的套用場景 243
9.2.1 用戶視角的套用 243
9.2.2 網站運營者視角的套用 244
9.2.3 商家視角的套用 244
9.2.4 其他套用 245
9.3 基於詞典的評價對象提取 245
9.4 基於語料的評價對象提取 246
9.5 評價水平量化 252
9.5.1 整體粗粒度情感分析 253
9.5.2 整體細粒度情感分析 254
9.5.3 局部粗粒度情感分析 258
9.5.4 局部細粒度情感分析 259
9.6 基於語言模型的情感分析技術 259
9.6.1 最大熵LDA主題模型:模型性質 260
9.6.2 最大熵LDA主題模型:基本結構 260
9.6.3 最大熵LDA主題模型:參數估計 263
9.7 本章小結 265
第10章 社交網路分析 266
10.1 社交網路分析的基本概念 266
10.2 社交網路分析的套用場景 269
10.2.1 虛擬社區發現 270
10.2.2 用戶影響力分析 271
10.2.3 情感分析 271
10.2.4 話題發現與演化 272
10.2.5 信息檢索 273
10.3 社交網路的虛擬社區發現 274
10.3.1 社區發現的信息基礎 274
10.3.2 基於隱性位置的聚類模型 275
10.4 社交網路的用戶影響力分析 276
10.4.1 網路結構與用戶影響力 276
10.4.2 TwitterRank算法 277
10.5 社交網路的情感分析 279
10.5.1 基於表情符號的訓練集合構建 279
10.5.2 基於POSTag的特徵最佳化 280
10.6 社交網路的話題發現與演化 282
10.6.1 話題發現分析 282
10.6.2 Twitter-LDA 284
10.6.3 基於文檔聚類的話題發現 284
10.6.4 基於辭彙聚類的話題發現 286
10.6.5 話題演化分析 287
10.6.6 基於NMF的主題建模 287
10.7 社交網路的信息檢索 289
10.7.1 信息檢索的內容拓展策略 290
10.7.2 信息檢索的綜合排序策略 291
10.8 本章小結 293
第11章 深度學習與NLP 295
11.1 基本原理 296
11.2 詞嵌入模型 299
11.2.1 辭彙的分散式表示 299
11.2.2 神經機率語言模型 300
11.2.3 詞嵌入模型概述 301
11.3 RNN與NLP 304
11.3.1 RNN 304
11.3.2 基於RNN的機器翻譯 305
11.3.3 RNN的其他套用 308
11.4 本章小結 309
第12章 實證研究 311
12.1 研究架構 311
12.1.1 研究問題背景 311
12.1.2 問題分析 313
12.2 理論與模型 314
12.2.1 相關理論與假設 314
12.2.2 模型構建 317
12.3 文本數據處理 319
12.3.1 基於文本分析的口碑打分調整 319
12.3.2 基於文本分析的口碑權重計算 323
12.3.3 基於文本分析的候選集合構建 324
12.4 研究結論 326
12.4.1 實證結果 326
12.4.2 管理建議 328
12.5 本章小結 329
第13章 總結 330
3.9 LSI模型 64
3.9.1 SVD 64
3.9.2 基於SVD的降維分析 66
3.10 Unigram模型 67
3.11 pLSI模型 67
3.11.1 pLSI的模型結構 67
3.11.2 pLSI的參數估計 68
3.12 LDA主題模型 70
3.12.1 LDA的模型結構 70
3.12.2 LDA的參數估計 72
3.13 主題模型拓展 75
3.13.1 相關主題模型 76
3.13.2 層次主題模型 77
3.13.3 動態主題模型 80
3.13.4 句子主題模型 82
3.14 基於辭彙的統計學建模方法 83
3.15 本章小結 86
第4章 文本分類 88
4.1 文本分類的基本概念 88
4.2 文本分類的套用場景 89
4.2.1 文檔有用性判斷 89
4.2.2 口碑情感分析 90
4.2.3 負面信息識別 90
4.2.4 信息檢索 90
4.3 樸素貝葉斯模型 91
4.3.1 貝努利模型 91
4.3.2 多項式模型 93
4.3.3 模型參數平滑 94
4.4 向量空間模型 95
4.4.1 Rocchio方法 95
4.4.2 KNN方法 96
4.5 SVM模型 97
4.5.1 硬間隔SVM 97
4.5.2 軟間隔SVM 100
4.6 文本分類的評價 102
4.6.1 二元分類評價 102
4.6.2 多類問題評價 104
4.6.3 分類測試集 105
4.7 分類特徵最佳化 106
4.7.1 分類特徵提取 106
4.7.2 分類特徵轉化 112
4.7.3 分類特徵擴展 114
4.8 分類學習策略最佳化 117
4.8.1 AdaBoost算法 117
4.8.2 主動式學習 118
4.8.3 遷移學習 119
4.9 本章小結 119
第5章 文本聚類 121
5.1 文本聚類的基本概念 121
5.2 文本聚類的套用場景 122
5.2.1 探索分析 122
5.2.2 降維 123
5.2.3 信息檢索 123
5.3 扁平式聚類 124
5.3.1 K-均值算法 125
5.3.2 基於模型的聚類 128
5.4 凝聚式聚類 132
5.4.1 層次聚類 132
5.4.2 基於簇距離的聚類過程 132
5.4.3 算法停止條件 135
5.5 聚類結果分析 136
5.5.1 聚類算法評估 136
5.5.2 聚類標籤生成 138
5.6 聚類特徵最佳化 140
5.6.1 基於疊代的方法 141
5.6.2 無監督指標 141
5.7 半監督聚類 143
5.7.1 遷移學習 144
5.7.2 AP算法 145
5.8 短文本聚類 146
5.8.1 文本特徵補充 146
5.8.2 TermCut算法 148
5.8.3 Dirichlet多項式混合模型 149
5.9 流數據聚類 151
5.9.1 OSKM算法 151
5.9.2 可拓展K-means算法 152
5.10 本章小結 153
第6章 序列標註 155
6.1 序列標註的基本概念 155
6.2 序列標註的套用場景 157
6.2.1 詞性標註 157
6.2.2 命名實體識別 157
6.2.3 分詞 157
6.3 HMM 158
6.3.1 HMM的機率計算問題 160
6.3.2 HMM的學習問題 162
6.2.3 HMM的預測問題 164
6.4 最大熵模型和最大熵馬爾可夫模型 166
6.4.1 最大熵模型 167
6.4.2 最大熵馬爾可夫模型 170
6.5 條件隨機場 172
6.5.1 標註偏置問題 172
6.5.2 條件隨機場的基本原理 174
6.6 本章小結 176
第7章 信息檢索 177
7.1 信息檢索的基本概念 177
7.2 信息檢索的套用場景 180
7.2.1 搜尋引擎 180
7.2.2 內容推薦 182
7.3 基於空間模型的信息檢索 184
7.3.1 文檔查找 184
7.3.2 文檔排序 185
7.3.3 系統評價 187
7.4 基於機率模型的信息檢索 190
7.4.1 二值獨立模型 191
7.4.2 模型參數估計 193
7.5 基於語言模型的信息檢索 196
7.5.1 語言模型 196
7.5.2 查詢似然模型 198
7.6 本章小結 201
第8章 文本摘要 203
8.1 文本摘要的基本概念 203
8.2 文本摘要的套用場景 206
8.2.1 信息檢索 206
8.2.2 信息壓縮 207
8.2.3 用戶畫像 208
8.2.4 知識管理 209
8.3 關鍵字提取的特徵設計 210
8.3.1 詞頻特徵 210
8.3.2 辭彙基礎特徵 211
8.3.3 辭彙位置特徵 212
8.3.4 辭彙標記特徵 214
8.4 關鍵字提取的有監督算法 214
8.5 關鍵字提取的無監督算法 217
8.5.1 簡單指標設計 217
8.5.2 複合指標設計 217
8.6 基於圖模型的關鍵字提取算法 218
8.6.1 圖模型靜態指標算法 220
8.6.2 圖模型動態指標算法 223
8.7 關鍵字提取的技術最佳化 226
8.7.1 長文本問題最佳化 227
8.7.2 短文本問題最佳化 228
8.7.3 多主題特徵最佳化 229
8.7.4 時序特徵最佳化 232
8.7.5 歧義問題最佳化 233
8.8 關鍵短語提取 234
8.8.1 短語性指標 235
8.8.2 信息性指標 235
8.9 關鍵句提取 236
8.9.1 基於辭彙關鍵性的方法 236
8.9.2 基於句子特徵的方法 237
8.9.3 基於圖模型的方法 238
8.10 本章小結 240
第9章 口碑分析 241
9.1 口碑分析的基本概念 242
9.2 口碑分析的套用場景 243
9.2.1 用戶視角的套用 243
9.2.2 網站運營者視角的套用 244
9.2.3 商家視角的套用 244
9.2.4 其他套用 245
9.3 基於詞典的評價對象提取 245
9.4 基於語料的評價對象提取 246
9.5 評價水平量化 252
9.5.1 整體粗粒度情感分析 253
9.5.2 整體細粒度情感分析 254
9.5.3 局部粗粒度情感分析 258
9.5.4 局部細粒度情感分析 259
9.6 基於語言模型的情感分析技術 259
9.6.1 最大熵LDA主題模型:模型性質 260
9.6.2 最大熵LDA主題模型:基本結構 260
9.6.3 最大熵LDA主題模型:參數估計 263
9.7 本章小結 265
第10章 社交網路分析 266
10.1 社交網路分析的基本概念 266
10.2 社交網路分析的套用場景 269
10.2.1 虛擬社區發現 270
10.2.2 用戶影響力分析 271
10.2.3 情感分析 271
10.2.4 話題發現與演化 272
10.2.5 信息檢索 273
10.3 社交網路的虛擬社區發現 274
10.3.1 社區發現的信息基礎 274
10.3.2 基於隱性位置的聚類模型 275
10.4 社交網路的用戶影響力分析 276
10.4.1 網路結構與用戶影響力 276
10.4.2 TwitterRank算法 277
10.5 社交網路的情感分析 279
10.5.1 基於表情符號的訓練集合構建 279
10.5.2 基於POSTag的特徵最佳化 280
10.6 社交網路的話題發現與演化 282
10.6.1 話題發現分析 282
10.6.2 Twitter-LDA 284
10.6.3 基於文檔聚類的話題發現 284
10.6.4 基於辭彙聚類的話題發現 286
10.6.5 話題演化分析 287
10.6.6 基於NMF的主題建模 287
10.7 社交網路的信息檢索 289
10.7.1 信息檢索的內容拓展策略 290
10.7.2 信息檢索的綜合排序策略 291
10.8 本章小結 293
第11章 深度學習與NLP 295
11.1 基本原理 296
11.2 詞嵌入模型 299
11.2.1 辭彙的分散式表示 299
11.2.2 神經機率語言模型 300
11.2.3 詞嵌入模型概述 301
11.3 RNN與NLP 304
11.3.1 RNN 304
11.3.2 基於RNN的機器翻譯 305
11.3.3 RNN的其他套用 308
11.4 本章小結 309
第12章 實證研究 311
12.1 研究架構 311
12.1.1 研究問題背景 311
12.1.2 問題分析 313
12.2 理論與模型 314
12.2.1 相關理論與假設 314
12.2.2 模型構建 317
12.3 文本數據處理 319
12.3.1 基於文本分析的口碑打分調整 319
12.3.2 基於文本分析的口碑權重計算 323
12.3.3 基於文本分析的候選集合構建 324
12.4 研究結論 326
12.4.1 實證結果 326
12.4.2 管理建議 328
12.5 本章小結 329
第13章 總結 330,第1章 概述 1
1.1 網路運營與文本分析 1
1.1.1 網際網路運營的戰略思維 1
1.1.2 網路運營與大數據文本分析 2
1.2 文本分析的4V特徵 4
1.2.1 Volume特徵 4
1.2.2 Variety特徵 5
1.2.3 Value特徵 6
1.2.4 Velocity特徵 7
1.3 線上文本分析套用 8
1.3.1 線上文本分析的管理類套用 9
1.3.2 線上文本分析的內容類套用 12
1.4 本章小結 16
第2章 預備知識 18
2.1 文本挖掘的主要任務 18
2.2 語義分析與語法分析 20
2.3 文本的結構化分析 21
2.4 文本的標準化分析 24
2.5 機器學習的基本概念 24
2.5.1 機器學習與深度學習 25
2.5.2 機器學習的基本要素 33
2.6 機器學習的重要問題 36
2.6.1 機率圖模型 36
2.6.2 判別式模型和產生式模型 39
2.6.3 機器學習模型求解 40
2.6.4 模型過擬合 43
2.7 本章小結 45
第3章 文本建模 46
3.1 文本建模的基本概念 46
3.2 文本建模的套用場景 48
3.2.1 主體角色識別 48
3.2.2 語言風格分析 49
3.2.3 智慧型系統 49
3.2.4 文本表示 50
3.2.5 文本降維 50
3.2.6 話題分析 50
3.3 語言學建模概述 51
3.4 詞標註分析 52
3.5 句法分析 55
3.5.1 轉換生成語法 56
3.5.2 依存句法 56
3.6 知識庫與語義網 58
3.7 統計學建模概述 59
3.8 向量空間模型 61
3.9 LSI模型 64
3.9.1 SVD 64
3.9.2 基於SVD的降維分析 66
3.10 Unigram模型 67
3.11 pLSI模型 67
3.11.1 pLSI的模型結構 67
3.11.2 pLSI的參數估計 68
3.12 LDA主題模型 70
3.12.1 LDA的模型結構 70
3.12.2 LDA的參數估計 72
3.13 主題模型拓展 75
3.13.1 相關主題模型 76
3.13.2 層次主題模型 77
3.13.3 動態主題模型 80
3.13.4 句子主題模型 82
3.14 基於辭彙的統計學建模方法 83
3.15 本章小結 86
第4章 文本分類 88
4.1 文本分類的基本概念 88
4.2 文本分類的套用場景 89
4.2.1 文檔有用性判斷 89
4.2.2 口碑情感分析 90
4.2.3 負面信息識別 90
4.2.4 信息檢索 90
4.3 樸素貝葉斯模型 91
4.3.1 貝努利模型 91
4.3.2 多項式模型 93
4.3.3 模型參數平滑 94
4.4 向量空間模型 95
4.4.1 Rocchio方法 95
4.4.2 KNN方法 96
4.5 SVM模型 97
4.5.1 硬間隔SVM 97
4.5.2 軟間隔SVM 100
4.6 文本分類的評價 102
4.6.1 二元分類評價 102
4.6.2 多類問題評價 104
4.6.3 分類測試集 105
4.7 分類特徵最佳化 106
4.7.1 分類特徵提取 106
4.7.2 分類特徵轉化 112
4.7.3 分類特徵擴展 114
4.8 分類學習策略最佳化 117
4.8.1 AdaBoost算法 117
4.8.2 主動式學習 118
4.8.3 遷移學習 119
4.9 本章小結 119
第5章 文本聚類 121
5.1 文本聚類的基本概念 121
5.2 文本聚類的套用場景 122
5.2.1 探索分析 122
5.2.2 降維 123
5.2.3 信息檢索 123
5.3 扁平式聚類 124
5.3.1 K-均值算法 125
5.3.2 基於模型的聚類 128
5.4 凝聚式聚類 132
5.4.1 層次聚類 132
5.4.2 基於簇距離的聚類過程 132
5.4.3 算法停止條件 135
5.5 聚類結果分析 136
5.5.1 聚類算法評估 136
5.5.2 聚類標籤生成 138
5.6 聚類特徵最佳化 140
5.6.1 基於疊代的方法 141
5.6.2 無監督指標 141
5.7 半監督聚類 143
5.7.1 遷移學習 144
5.7.2 AP算法 145
5.8 短文本聚類 146
5.8.1 文本特徵補充 146
5.8.2 TermCut算法 148
5.8.3 Dirichlet多項式混合模型 149
5.9 流數據聚類 151
5.9.1 OSKM算法 151
5.9.2 可拓展K-means算法 152
5.10 本章小結 153
第6章 序列標註 155
6.1 序列標註的基本概念 155
6.2 序列標註的套用場景 157
6.2.1 詞性標註 157
6.2.2 命名實體識別 157
6.2.3 分詞 157
6.3 HMM 158
6.3.1 HMM的機率計算問題 160
6.3.2 HMM的學習問題 162
6.2.3 HMM的預測問題 164
6.4 最大熵模型和最大熵馬爾可夫模型 166
6.4.1 最大熵模型 167
6.4.2 最大熵馬爾可夫模型 170
6.5 條件隨機場 172
6.5.1 標註偏置問題 172
6.5.2 條件隨機場的基本原理 174
6.6 本章小結 176
第7章 信息檢索 177
7.1 信息檢索的基本概念 177
7.2 信息檢索的套用場景 180
7.2.1 搜尋引擎 180
7.2.2 內容推薦 182
7.3 基於空間模型的信息檢索 184
7.3.1 文檔查找 184
7.3.2 文檔排序 185
7.3.3 系統評價 187
7.4 基於機率模型的信息檢索 190
7.4.1 二值獨立模型 191
7.4.2 模型參數估計 193
7.5 基於語言模型的信息檢索 196
7.5.1 語言模型 196
7.5.2 查詢似然模型 198
7.6 本章小結 201
第8章 文本摘要 203
8.1 文本摘要的基本概念 203
8.2 文本摘要的套用場景 206
8.2.1 信息檢索 206
8.2.2 信息壓縮 207
8.2.3 用戶畫像 208
8.2.4 知識管理 209
8.3 關鍵字提取的特徵設計 210
8.3.1 詞頻特徵 210
8.3.2 辭彙基礎特徵 211
8.3.3 辭彙位置特徵 212
8.3.4 辭彙標記特徵 214
8.4 關鍵字提取的有監督算法 214
8.5 關鍵字提取的無監督算法 217
8.5.1 簡單指標設計 217
8.5.2 複合指標設計 217
8.6 基於圖模型的關鍵字提取算法 218
8.6.1 圖模型靜態指標算法 220
8.6.2 圖模型動態指標算法 223
8.7 關鍵字提取的技術最佳化 226
8.7.1 長文本問題最佳化 227
8.7.2 短文本問題最佳化 228
8.7.3 多主題特徵最佳化 229
8.7.4 時序特徵最佳化 232
8.7.5 歧義問題最佳化 233
8.8 關鍵短語提取 234
8.8.1 短語性指標 235
8.8.2 信息性指標 235
8.9 關鍵句提取 236
8.9.1 基於辭彙關鍵性的方法 236
8.9.2 基於句子特徵的方法 237
8.9.3 基於圖模型的方法 238
8.10 本章小結 240
第9章 口碑分析 241
9.1 口碑分析的基本概念 242
9.2 口碑分析的套用場景 243
9.2.1 用戶視角的套用 243
9.2.2 網站運營者視角的套用 244
9.2.3 商家視角的套用 244
9.2.4 其他套用 245
9.3 基於詞典的評價對象提取 245
9.4 基於語料的評價對象提取 246
9.5 評價水平量化 252
9.5.1 整體粗粒度情感分析 253
9.5.2 整體細粒度情感分析 254
9.5.3 局部粗粒度情感分析 258
9.5.4 局部細粒度情感分析 259
9.6 基於語言模型的情感分析技術 259
9.6.1 最大熵LDA主題模型:模型性質 260
9.6.2 最大熵LDA主題模型:基本結構 260
9.6.3 最大熵LDA主題模型:參數估計 263
9.7 本章小結 265
第10章 社交網路分析 266
10.1 社交網路分析的基本概念 266
10.2 社交網路分析的套用場景 269
10.2.1 虛擬社區發現 270
10.2.2 用戶影響力分析 271
10.2.3 情感分析 271
10.2.4 話題發現與演化 272
10.2.5 信息檢索 273
10.3 社交網路的虛擬社區發現 274
10.3.1 社區發現的信息基礎 274
10.3.2 基於隱性位置的聚類模型 275
10.4 社交網路的用戶影響力分析 276
10.4.1 網路結構與用戶影響力 276
10.4.2 TwitterRank算法 277
10.5 社交網路的情感分析 279
10.5.1 基於表情符號的訓練集合構建 279
10.5.2 基於POSTag的特徵最佳化 280
10.6 社交網路的話題發現與演化 282
10.6.1 話題發現分析 282
10.6.2 Twitter-LDA 284
10.6.3 基於文檔聚類的話題發現 284
10.6.4 基於辭彙聚類的話題發現 286
10.6.5 話題演化分析 287
10.6.6 基於NMF的主題建模 287
10.7 社交網路的信息檢索 289
10.7.1 信息檢索的內容拓展策略 290
10.7.2 信息檢索的綜合排序策略 291
10.8 本章小結 293
第11章 深度學習與NLP 295
11.1 基本原理 296
11.2 詞嵌入模型 299
11.2.1 辭彙的分散式表示 299
11.2.2 神經機率語言模型 300
11.2.3 詞嵌入模型概述 301
11.3 RNN與NLP 304
11.3.1 RNN 304
11.3.2 基於RNN的機器翻譯 305
11.3.3 RNN的其他套用 308
11.4 本章小結 309
第12章 實證研究 311
12.1 研究架構 311
12.1.1 研究問題背景 311
12.1.2 問題分析 313
12.2 理論與模型 314
12.2.1 相關理論與假設 314
12.2.2 模型構建 317
12.3 文本數據處理 319
12.3.1 基於文本分析的口碑打分調整 319
12.3.2 基於文本分析的口碑權重計算 323
12.3.3 基於文本分析的候選集合構建 324
12.4 研究結論 326
12.4.1 實證結果 326
12.4.2 管理建議 328
12.5 本章小結 329
第13章 總結 330

相關詞條

熱門詞條

聯絡我們