《特異群組挖掘》是2020年人民郵電出版社出版的圖書,作者是熊贇、朱揚勇 。
基本介紹
- 中文名:特異群組挖掘
- 作者:熊贇、朱揚勇
- 出版社:人民郵電出版社
- ISBN:9787115543264
內容簡介,圖書目錄,
內容簡介
高價值、低密度是大數據的特徵,挖掘高價值、低密度的數據對象是大數據的一項重要工作。特異群組是一類高價值、低密度的數據形態,是指在眾多行為對象中,少數對象群體具有一定數量的相同(或相似)的行為模式,表現出相異於大多數對象而形成的異常的群組。特異群組挖掘在證券金融、醫療保險、智慧型交通、社會網路和生命科學研究等領域具有重要的套用價值。對特異群組挖掘的研究代表了數據挖掘從淺層到深層的發展趨勢和必要性。
本書系統地闡述了特異群組挖掘任務,包括介紹了特異群組挖掘的概念,分析了特異群組挖掘任務與聚類、異常等任務之間的差異,給出了特異群組挖掘任務的相關算法,並且列舉了特異群組挖掘的幾個重點套用。本書適合大數據研究人員、大數據工程師、大數據套用分析師、大數據產業從業人員等閱讀,也可作為數據科學、大數據專業本科生和研究生的教學用書。
圖書目錄
第 1章 緒論 1
1.1 大數據 2
1.2 大數據挖掘 3
1.3 特異群組挖掘任務 6
1.4 小結 8
參考文獻 9
第 2章 為什麼需要特異群組挖掘 11
2.1 聚類 12
2.2 異常檢測 13
2.3 圖數據上的異常挖掘 20
2.4 特異群組挖掘 28
2.5 特異群組挖掘與其他任務間的關係 31
2.6 小結 33
參考文獻 33
第3章 特異群組挖掘的套用 45
3.1 證券市場操縱行為挖掘 46
3.2 醫療保險中的保費欺詐行為挖掘 48
3.3 有組織犯罪行為挖掘 50
3.4 金融風控中團伙欺詐檢測 51
3.5 生命科學研究中的特異群組挖掘 52
3.6 流行病學調查中的密切接觸者發現 53
3.7 其他套用場景 53
3.8 小結 54
參考文獻 55
第4章 特異群組挖掘原理與框架 59
4.1 特異群組挖掘形式化描述 60
4.2 特異群組挖掘框架算法 63
4.3 實驗與結果分析 66
4.4 特異群組挖掘套用步驟 67
4.5 小結 68
參考文獻 69
第5章 相似性與相似性連線 71
5.1 相似性 72
5.2 相似性連線 74
5.3 相似性搜尋中的索引結構 77
5.4 異質網路上的自相似性連線 79
5.4.1 異質信息網路 79
5.4.2 異質網路上的相似性度量 83
5.4.3 基於路徑的自相似性連線 83
5.5 實驗與結果分析 90
5.5.1 效率分析 91
5.5.2 有效性分析 95
5.5.3 Topk相似連線示例 98
5.6 小結 101
參考文獻 101
第6章 無監督的複雜行為數據表示學習 107
6.1 行為數據 108
6.2 表示學習 110
6.2.1 詞嵌入模型 110
6.2.2 圖嵌入模型 112
6.2.3 異質網路表示學習 116
6.2.4 知識圖譜表示學習 117
6.2.5 用戶-商品對表示學習 117
6.3 基於互動圖嵌入的複雜行為數據表示學習 118
6.3.1 互動圖定義 118
6.3.2 無屬性互動圖嵌入 122
6.3.3 IGE模型 124
6.4 實驗與結果分析 129
6.4.1 實驗描述 129
6.4.2 實驗結果分析 131
6.5 IGE算法在證券投資行為分析中的套用 135
6.6 小結 139
參考文獻 139
第7章 半監督的複雜行為數據表示學習 147
7.1 圖半監督學習 148
7.2 問題定義 150
7.3 算法模型 151
7.4 實驗與結果分析 153
7.4.1 實驗描述 153
7.4.2 實驗結果分析 154
7.5 小結 157
參考文獻 157
第8章 半監督群組檢測 159
8.1 群組檢測 160
8.2 問題定義 162
8.3 算法模型 163
8.3.1 判別器 163
8.3.2 生成器 164
8.3.3 預訓練與強制教學 166
8.3.4 群組生成 167
8.4 實驗與結果分析 168
8.4.1 實驗描述 168
8.4.2 實驗結果分析 169
8.5 小結 170
參考文獻 170
第9章 增量複雜行為數據特徵分析 173
9.1 問題定義 174
9.2 增量複雜行為數據特徵表示算法 175
9.2.1 日交易記錄編碼 175
9.2.2 預測編碼 177
9.2.3 生成式對抗網路 177
9.2.4 特徵向量表示 178
9.3 方法套用與實驗分析:遊資賬戶識別 179
9.3.1 業務問題定義 179
9.3.2 數據來源與預處理 181
9.3.3 遊資賬戶識別 183
9.3.4 遊資賬戶聚類 184
9.4 小結 185
參考文獻 185
第 10章 面向動態圖的節點表示學習 187
10.1 動態網路節點嵌入 188
10.1.1 靜態網路節點嵌入方法 190
10.1.2 單向量節點嵌入表示方法 191
10.1.3 多向量節點嵌入表示方法 192
10.1.4 函式式節點嵌入表示方法 193
10.2 問題定義 194
10.3 DynGraphGAN算法 195
10.3.1 生成器 197
10.3.2 判別器 198
10.3.3 算法細節 200
10.4 實驗與結果分析 201
10.4.1 數據集 201
10.4.2 基準算法 202
10.4.3 評估任務 203
10.4.4 鏈路重構和鏈路預測分析 204
10.4.5 參數敏感性分析 207
10.5 小結 209
參考文獻 209
第 11章 多源網路對齊 213
11.1 多源數據網路 214
11.2 問題定義 216
11.3 HGANE算法 217
11.3.1 層次圖注意機制 217
11.3.2 對齊網路表示 220
11.3.3 面向協同連結預測的網路表示框架 222
11.4 實驗與結果分析 223
11.4.1 數據集 223
11.4.2 對比方法 224
11.4.3 實驗設定 225
11.4.4 實驗結果 226
11.4.5 假設驗證 227
11.4.6 參數分析 228
11.5 小結 230
參考文獻 230
第 12章 總結與展望 233
12.1 總結 234
12.2 展望 236