Python數據分析與挖掘實戰(第2版)

《Python數據分析與挖掘實戰(第2版)》是2022年機械工業出版社出版的圖書。

基本介紹

  • 中文名:Python數據分析與挖掘實戰(第2版)
  • 出版時間:2022年5月1日
  • 出版社:機械工業出版社
  • ISBN:9787111640028
內容簡介,圖書目錄,

內容簡介

本書是Python數據分析與挖掘領域的公認的事實標準,第1版銷售超過10萬冊,銷售勢頭依然強勁,被國內100餘所高等院校採用為教材,同時也被廣大數據科學工作者奉為經典。
作者在大數據挖掘與分析等領域有10餘年的工程實踐、教學和創辦企業的經驗,不僅掌握行業的z新技術和實踐方法,而且洞悉學生和老師的需求與痛點,這為本書的內容和形式提供了強有力的保障,這是本書第1版能大獲成功的關鍵因素。
全書共13章,分為三個部分,從技術理論、工程實踐和進階提升三個維度對數據分析與挖掘進行了詳細的講解。
第一部分 基礎篇(第1~5章)
主要講解了Python數據分析與挖掘的工具和技術理論,包括數據挖掘的基礎知識、Python數據挖掘與建模工具、數據挖掘的建模過程,以及挖掘建模的常用算法和原理等內容。
第二部分 實戰篇(第6~12章)
通過工程實踐案例講解了數據挖掘技術在金融、航空、零售、能源、製造、電商等行業的套用。在案例組織結構上,本書按照“介紹案例背景與挖掘目標→闡述分析方法與過程→完成模型構建”的順序進行,在建模過程關鍵環節,穿插程式實現代碼。最後,通過上機實踐加深對案例套用中的數據挖掘技術的理解。
第三部分 提高篇(第13章)
重點講解了基於Python引擎的開源數據挖掘建模平台(TipDM)的功能和使用方法,以航空公司客戶價值分析為案例,介紹了如何使用該平台快速搭建數據分析與挖掘工程。
本書不僅提供TipDM這樣的上機實踐環境,而且還提供配套的案例建模數據、Python原始碼、教學PPT。

圖書目錄

前言
基礎篇
第1章 數據挖掘基礎
1.1 某知名連鎖餐飲企業的困惑
1.2 從餐飲服務到數據挖掘
1.3 數據挖掘的基本任務
1.4 數據挖掘建模過程
1.4.1 定義挖掘目標
1.4.2 數據取樣
1.4.3 數據探索
1.4.4 數據預處理
1.4.5 挖掘建模
1.4.6 模型評價
1.5 常用數據挖掘建模工具
1.6 小結
第2章 Python數據分析簡介
2.1 搭建Python開發平台
2.1.1 所要考慮的問題
2.1.2 基礎平台的搭建
2.2 Python使用入門
2.2.1 運行方式
2.2.2 基本命令
2.2.3 數據結構
2.2.4 庫的導入與添加
2.3 Python數據分析工具
2.3.1 NumPy
2.3.2 SciPy
2.3.3 Matplotlib
2.3.4 pandas
2.3.5 StatsModels
2.3.6 scikit-learn
2.3.7 Keras
2.3.8 Gensim
2.4 配套附屬檔案使用設定
2.5 小結
第3章 數據探索
3.1 數據質量分析
3.1.1 缺失值分析
3.1.2 異常值分析 40
3.1.3 一致性分析 44
3.2 數據特徵分析 44
3.2.1 分布分析 44
3.2.2 對比分析 48
3.2.3 統計量分析 51
3.2.4 周期性分析 54
3.2.5 貢獻度分析 55
3.2.6 相關性分析 58
3.3 Python主要數據探索函式 62
3.3.1 基本統計特徵函式 62
3.3.2 拓展統計特徵函式 66
3.3.3 統計繪圖函式 67
3.4 小結 74
第4章 數據預處理 75
4.1 數據清洗 75
4.1.1 缺失值處理 75
4.1.2 異常值處理 80
4.2 數據集成 80
4.2.1 實體識別 81
4.2.2 冗餘屬性識別 81
4.2.3 數據變換 81
4.2.4 簡單函式變換 81
4.2.5 規範化 82
4.2.6 連續屬性離散化 84
4.2.7 屬性構造 87
4.2.8 小波變換 88
4.3 數據歸約 91
4.3.1 屬性歸約 91
4.3.2 數值歸約 95
4.4 Python主要數據預處理函式 98
4.5 小結 101
第5章 挖掘建模 102
5.1 分類與預測 102
5.1.1 實現過程 103
5.1.2 常用的分類與預測算法 103
5.1.3 回歸分析 104
5.1.4 決策樹 108
5.1.5 人工神經網路 115
5.1.6 分類與預測算法評價 120
5.1.7 Python分類預測模型特點 125
5.2 聚類分析 125
5.2.1 常用聚類分析算法 126
5.2.2 K-Means聚類算法 127
5.2.3 聚類分析算法評價 132
5.2.4 Python主要聚類分析算法 133
5.3 關聯規則 135
5.3.1 常用關聯規則算法 136
5.3.2 Apriori算法 136
5.4 時序模式 142
5.4.1 時間序列算法 142
5.4.2 時間序列的預處理 143
5.4.3 平穩時間序列分析 145
5.4.4 非平穩時間序列分析 148
5.4.5 Python主要時序模式算法 156
5.5 離群點檢測 159
5.5.1 離群點的成因及類型 160
5.5.2 離群點檢測方法 160
5.5.3 基於模型的離群點檢測方法 161
5.5.4 基於聚類的離群點檢測方法 164
5.6 小結 167
實戰篇
第6章 財政收入影響因素分析及預測 170
6.1 背景與挖掘目標 170
6.2 分析方法與過程 171
6.2.1 分析步驟與流程 172
6.2.2 數據探索分析 172
6.2.3 數據預處理 176
6.2.4 模型構建 178
6.3 上機實驗 184
6.4 拓展思考 185
6.5 小結 186
第7章 航空公司客戶價值分析 187
7.1 背景與挖掘目標 187
7.2 分析方法與過程 188
7.2.1 分析步驟與流程 189
7.2.2 數據探索分析 189
7.2.3 數據預處理 200
7.2.4 模型構建 207
7.2.5 模型套用 212
7.3 上機實驗 214
7.4 拓展思考 215
7.5 小結 216
第8章 商品零售購物籃分析 217
8.1 背景與挖掘目標 217
8.2 分析方法與過程 218
8.2.1 數據探索分析 219
8.2.2 數據預處理 224
8.2.3 模型構建 226
8.3 上機實驗 232
8.4 拓展思考 233
8.5 小結 233
第9章 基於水色圖像的水質評價 234
9.1 背景與挖掘目標 234
9.2 分析方法與過程 235
9.2.1 分析步驟與流程 236
9.2.2 數據預處理 236
9.2.3 模型構建 240
9.2.4 水質評價 241
9.3 上機實驗 242
9.4 拓展思考 242
9.5 小結 243
0章 家用熱水器用戶行為分析與事件識別 244
10.1 背景與挖掘目標 244
10.2 分析方法與過程 245
10.2.1 數據探索分析 246
10.2.2 數據預處理 249
10.2.3 模型構建 260
10.2.4 模型檢驗 261
10.3 上機實驗 262
10.4 拓展思考 264
10.5 小結 265
1章 電子商務網站用戶行為分析及服務推薦 266
11.1 背景與挖掘目標 266
11.2 分析方法與過程 267
11.2.1 分析步驟與流程 267
11.2.2 數據抽取 269
11.2.3 數據探索分析 270
11.2.4 數據預處理 279
11.2.5 構建智慧型推薦模型 283
11.3 上機實驗 291
11.4 拓展思考 293
11.5 小結 293
2章 電商產品評論數據情感分析 294
12.1 背景與挖掘目標 294
12.2 分析方法與過程 295
12.2.1 評論預處理 296
12.2.2 評論分詞 297
12.2.3 構建模型 303
12.3 上機實驗 315
12.4 拓展思考 316
12.5 小結 318
提高篇
3章 基於Python引擎的開源數據挖掘建模平台(TipDM) 320
13.1 平台簡介 321
13.1.1 模板 321
13.1.2 數據源 322
13.1.3 工程 323
13.1.4 系統組件 324
13.1.5 TipDM數據挖掘建模平台的本地化部署 326
13.2 快速構建數據挖掘工程 327
13.2.1 導入數據 329
13.2.2 配置輸入源組件 331
13.2.3 配置缺失值處理組件 332
13.2.4 配置記錄選擇組件 334
13.2.5 配置數據標準化組件 334
13.2.6 配置K-Means組件 336
13.3 小結 339

相關詞條

熱門詞條

聯絡我們