內容簡介
這是一本以項目實戰案例為驅動的數據挖掘著作,它能幫助完全沒有Python編程基礎和數據挖掘基礎的讀者快速掌握Python數據挖掘的技術、流程與方法。
在寫作方式上,本書與傳統的“理論與實踐結合”的入門書不同,它以數據挖掘領域的知名賽事“泰迪杯”數據挖掘挑戰賽(已舉辦10屆)和“泰迪杯”數據分析技能賽(已舉辦5屆)(累計1500餘所高校的10餘萬師生參賽)為依託,精選了11個經典賽題,將Python編程知識、數據挖掘知識和行業知識三者融合,讓讀者在實踐中快速掌握電商、教育、交通、傳媒、電力、旅遊、製造等7大行業的數據挖掘方法。
圖書目錄
前 言
第一篇 基礎篇
第1章 數據挖掘概述 2
1.1 數據挖掘簡介 2
1.2 數據挖掘的通用流程 4
1.2.1 目標分析 4
1.2.2 數據抽取 4
1.2.3 數據探索 5
1.2.4 數據預處理 5
1.2.5 分析與建模 5
1.2.6 模型評價 6
1.3 常用數據挖掘工具 6
1.4 Python數據挖掘環境配置 7
1.5 小結 9
第2章 Python數據挖掘編程基礎 10
2.1 Python使用入門 10
2.1.1 基本命令 10
2.1.2 判斷與循環 14
2.1.3 函式 15
2.1.4 庫的導入與添加 17
2.2 Python數據分析及預處理常用庫 19
2.2.1 NumPy 19
2.2.2 pandas 20
2.2.3 Matplotlib 20
2.3 Python數據挖掘建模常用框架和庫 20
2.3.1 scikit-learn 21
2.3.2 深度學習 21
2.3.3 其他 23
2.4 小結 25
第二篇 入門篇
第3章 電商平台手機銷售數據採集與分析 28
3.1 背景與目標 28
3.1.1 背景 29
3.1.2 數據說明 29
3.1.3 目標分析 30
3.2 數據採集 31
3.2.1 手機銷售數據採集 31
3.2.2 手機售後數據採集 32
3.3 數據探索與預處理 34
3.3.1 數據信息探索 34
3.3.2 缺失值處理 36
3.3.3 文本處理 37
3.4 數據可視化分析 38
3.4.1 手機的銷售因素分析 38
3.4.2 用戶的消費習慣分析 45
3.4.3 用戶的售後評論分析 49
3.5 制定行銷策略 50
3.6 小結 51
第4章 自動售貨機銷售數據分析與套用 52
4.1 背景與目標 52
4.1.1 背景 52
4.1.2 數據說明 53
4.1.3 目標分析 53
4.2 數據讀取與預處理 54
4.2.1 數據讀取 54
4.2.2 數據清洗 55
4.2.3 數據規約 57
4.3 銷售數據可視化分析 59
4.3.1 銷售額和自動售貨機數量的關係 59
4.3.2 訂單數量和自動售貨機數量的關係 60
4.3.3 暢銷和滯銷商品 63
4.3.4 自動售貨機的銷售情況 64
4.3.5 訂單支付方式占比 67
4.3.6 各消費時段的訂單用戶占比 68
4.4 銷售額預測 69
4.4.1 統計周銷售額 69
4.4.2 平穩性檢驗 70
4.4.3 差分處理 72
4.4.4 模型定階 74
4.4.5 模型預測 74
4.5 小結 75
第5章 教育平台的 課程 策略 76
5.1 背景與目標 76
5.1.1 背景 77
5.1.2 數據說明 77
5.1.3 目標分析 78
5.2 數據探索 78
5.2.1 數據質量分析 79
5.2.2 課程單價分布分析 81
5.3 數據預處理 82
5.4 平台的運營狀況分析 83
5.4.1 用戶留存率 83
5.4.2 用戶活躍時間 88
5.4.3 課程受歡迎程度 90
5.5 Apriori模型的構建 92
5.5.1 Apriori算法 93
5.5.2 構建Apriori模型 94
5.5.3 模型套用 97
5.6 制定課程 策略 98
5.7 小結 99
第三篇 進階篇
第6章 電視產品的行銷 102
6.1 背景與目標 102
6.1.1 背景 103
6.1.2 數據說明 103
6.1.3 目標分析 104
6.2 數據預處理 105
6.2.1 數據清洗 105
6.2.2 數據探索 109
6.2.3 屬性構建 115
6.3 分析與建模 118
6.3.1 基於物品的協同過濾 模型 119
6.3.2 基於流行度的 算法模型 121
6.4 模型評價 122
6.5 小結 124
第7章 運輸車輛安全駕駛行為分析 125
7.1 背景與目標 125
7.1.1 背景 126
7.1.2 數據說明 126
7.1.3 目標分析 126
7.2 構建車輛駕駛行為指標 127
7.3 數據探索分析 129
7.3.1 分布分析 129
7.3.2 相關性分析 131
7.3.3 異常值檢測 132
7.4 駕駛行為聚類分析 133
7.4.1 K-Means聚類 133
7.4.2 層次聚類 135
7.4.3 高斯混合模型聚類 136
7.4.4 譜聚類 137
7.5 構建駕駛行為預測模型 139
7.5.1 構建LDA模型 139
7.5.2 構建樸素貝葉斯模型 140
7.5.3 構建神經網路模型 142
7.6 駕駛行為安全分析總結 143
7.7 小結 143
第8章 基於非侵入式負荷監測與分解的電力數據挖掘 144
8.1 背景與目標 144
8.1.1 背景 144
8.1.2 數據說明 146
8.1.3 目標分析 148
8.2 數據準備 148
8.2.1 數據探索 149
8.2.2 缺失值處理 151
8.3 屬性構建 153
8.3.1 設備數據屬性構建 153
8.3.2 周波數據屬性構建 154
8.4 模型訓練 156
8.5 性能度量 158
8.6 小結 162
第9章 遊客目的地印象分析 163
9.1 背景與目標 163
9.1.1 背景 164
9.1.2 數據說明 164
9.1.3 目標分析 165
9.2 數據預處理 166
9.2.1 基於規則的垃圾評論去除方法 166
9.2.2 基於無監督學習的無效評論去除方法 168
9.2.3 拆分各景區和酒店的數據 170
9.3 目的地印象分析 170
9.4 目的地評分分析 172
9.4.1 基於LDA主題模型的主題詞生成 172
9.4.2 基於機器學習的評論情感提取 175
9.4.3 基於關鍵字匹配的評分預測 177
9.5 目的地特色分析 184
9.5.1 篩選各層次的景區和酒店 184
9.5.2 目的地特色挖掘 185
9.6 提升目的地美譽度的建議 190
9.6.1 提升景區美譽度的建議 190
9.6.2 提升酒店美譽度的建議 191
9.7 小結 191
第四篇 高階篇
第10章 智慧型閱讀模型的構建 194
10.1 背景與目標 194
10.1.1 背景 194
10.1.2 數據說明 195
10.1.3 目標分析 196
10.1.4 項目工程結構 196
10.2 數據探索 197
10.2.1 問題文本長度的分布統計 198
10.2.2 答案文本長度的分布統計 198
10.2.3 label欄位值分布統計 199
10.3 關鍵字匹配 200
10.3.1 數據預處理 200
10.3.2 TF-IDF模型 202
10.4 精準匹配 203
10.4.1 數據預處理 203
10.4.2 精準匹配模型 206
10.4.3 模型評價 211
10.5 模型套用 214
10.6 小結 215
第11章 岩石樣本智慧型識別 216
11.1 背景與目標 216
11.1.1 背景 216
11.1.2 數據說明 217
11.1.3 目標分析 218
11.2 數據預處理 218
11.2.1 數據探索 219
11.2.2 目標提取 220
11.2.3 數據增強 221
11.2.4 圖像標籤處理與圖像尺寸 改 224
11.2.5 數據集劃分與歸一化 226
11.3 模型構建 227
11.3.1 EfficientNet-B0模型 227
11.3.2 基於EfficientNet-B0的遷移學習 227
11.3.3 基於訓練模型的微調 230
11.4 模型評價 23
311.5 小結 236
第12章 電商平台圖像中文字的識別 237
12.1 背景與目標 237
12.1.1 背景 237
12.1.2 數據說明 238
12.1.3 目標分析 239
12.1.4 項目工程結構 239
12.2 數據預處理 240
12.2.1 獲取文字候選區域 241
12.2.2 利用形態學處理獲取文本行 243
12.2.3 垂直投影分割 244
12.3 文字識別 245
12.3.1 構建訓練數據集 245
12.3.2 模型訓練 247
12.3.3 模型調用 250
12.4 模型評價 251
12.5 小結 252
第13章 電力巡檢智慧型缺陷檢測 253
13.1 背景與目標 253
13.1.1 背景 254
13.1.2 數據說明 254
13.1.3 目標分析 256
13.1.4 項目工程結構 257
13.2 圖像探索 259
13.2.1 緣子拍攝原圖探索 259
13.2.2 基於原圖的標準掩模圖探索 259
13.3 圖像預處理 260
13.3.1 圖像分割模型預處理 260
13.3.2 目標檢測模型預處理 268
13.4 圖像分割 272
13.4.1 U-Net 272
13.4.2 模型訓練 275
13.4.3 模型預測 276
13.4.4 模型評價 280
13.4.5 圖像最佳化 280
13.5 目標檢測 282
13.5.1 YOLOv3 282
13.5.2 模型訓練 289
13.5.3 模型預測 290
13.5.4 模型評價 292
13.6 小結 293第五篇 拓展
第14章 基於TipDM大數據挖掘建模平台實現自動售貨機銷售數據分析 296
14.1 平台簡介 296
14.1.1 模型庫 298
14.1.2 數據連線 298
14.1.3 我的數據 298
14.1.4 我的工程 298
14.1.5 系統算法 299
14.1.6 個人算法 301
14.2 實現自動售貨機銷售數據分析項目 302
14.2.1 數據源配置 302
14.2.2 數據探索與預處理 305
14.2.3 數據可視化分析 309
14.2.4 銷售額預測 315
14.3 小結 323