Python數據挖掘實戰

Python數據挖掘實戰

《Python數據挖掘實戰》是電子工業出版社出版圖書,作者是方小敏。

《誰說菜鳥不會數據分析(Python篇)》作者又一力作,以數據挖掘的各種業務問題為主線,以實例揭示Python數據挖掘的詳細過程

基本介紹

  • 書名:Python數據挖掘實戰
  • 作者:方小敏
  • 出版社:電子工業出版社
  • 出版時間:2021年2月
  • 頁數:244 頁
  • 定價:79 元
  • 開本:16 開
  • ISBN:9787121404610
內容簡介,圖書目錄,作者簡介,

內容簡介

《Python數據挖掘實戰》從解決工作上的實際問題出發,提煉總結了日常工作中常用的數據挖掘實戰方法與技巧,並且使用Python語言來實現。

圖書目錄

第1章 數據挖掘基礎 /1
1.1 數據挖掘是什麼 /1
1.1.1 數據挖掘算法的類型 /2
1.1.2 數據挖掘需要的技能 /4
1.1.3 數據挖掘的常見誤區 /6
1.2 數據挖掘的常見問題 /8
1.2.1 預測問題 /9
1.2.2 分類問題 /9
1.2.3 聚類問題 /11
1.2.4 關聯問題 /12
1.3 數據挖掘的標準流程 /13
1.3.1 商業駝洪多理解 /14
1.3.2 數據理解尋擊槳 /14
1.3.3 數據準備 /14
1.3.4 模型構建 /15
1.3.5 模型評估 /15
1.3.6 模型部署 /15
1.4 數據分析和數據槓陵拘挖掘的區別 /16
1.4.1 數據分析 /16
1.4.2 數據挖掘 /17
第2章 回歸模型 /18
2.1 回歸模型簡介 /18
2.2 相關分析 /20
2.2.1 依存關係 /20
2.2.2 相關係數的計算 /21
2.2.3 相關係數的方向與大小 /22
2.2.4 居民購物習慣相關分析案例 /23
2.3 簡單線性回歸分析 /25
2.3.1 線性回歸方程解讀 /25
2.3.2 使用最小二乘法求解回歸方程 /26
2.3.3 使用廣告投放費用預測銷售額案例 /28
2.4 多重線性回歸分析 /33
2.4.1 使用最小二乘法求解多重線性回歸方程 /33
2.4.2 使用廣告投放費用與客流量預測銷售額案例 /36
2.5 一元非線性回歸 /39
2.5.1 一元非線性回歸模型 /39
2.5.2 一元非線性回歸模型求解 /40
2.5.3 使用上線天數預測活躍用戶數案例 /41
第3章 分類模型 /48
3.1 分類模型基礎 /48
3.1.1 分類模型的建模五步驟 /49
3.1.2 分類模型評估指標 /50
3.1.3 K折交叉驗證 /53
3.2 KNN(K Nearest Neighbors)模型 /54
3.2.1 KNN(K Nearest Neighbors)模型原理 /54
3.2.2 使用商戶數據預測是否續約案例 /55
3.3 貝葉斯分類(Naive Bayes Classifier) /64
3.3.1 貝葉斯分類的核心概念 /65
3.3.2 樸素貝葉斯分類(Naive Bayes Classifier) /67
3.3.3 樸素貝葉斯分類算法在離散型特徵上的求解 /68
3.3.4 樸素貝葉斯分類算法在連續型特徵上的求解 /71
3.3.5 使用議員在議案上的投票記錄預測凝習其所屬黨派案例 /83
3.3.6 根據商戶數據預測其是否續約案例 /85
3.3.6 根據新聞文本預測其所屬分類案例 /86
3.4 決策樹(Decision Tree) /89
3.4.1 決策樹分類 /89
3.4.2 決策樹分類算法原理 /91
3.4.3 使用高中生基本信息預測其是否計畫升學案例 /93
3.4.4 案例解讀 /102
3.5 隨機森林(RandomForest) /104
3.5.1 隨機森林的特點 /104
3.5.2 格線搜尋 /106
3.5.3 使用隨機森林算法提升決策樹算法效果案例 /107
3.6 支持向量機(Support Vector Machine) /111
3.6.1 支持向量機的核心原理 /111
3.6.2 根據葡幾重獄愉萄酒成分數據預測其分類案例 /116
3.7 邏輯回歸(Logistic Regression)騙碑店 /118
3.7.1 邏輯回歸的核心概念 /118
3.7.2 邏輯回歸的數學推導 /119
3.7.3 使用住戶信息預測房屋是否屋主所有案例 /120
第4章 特徵工程 /124
4.1 描述訂匙捉紋性統計分析 /125
4.2 數據標準化 /127
4.2.1 Min-Max標準化 /128
4.2.2 Z-Score 標準化 /129
4.2.3 Normalizer歸一化 /131
4.3 數據變換 /132
4.3.1 二值化 /132
4.3.2 分桶 /135
4.3.3 冪變換(Power Transforms) /138
4.4 缺失值處理 /139
4.4.1 刪除缺失值所在的行 /140
4.4.2 均值/眾數/中值填充 /141
4.4.3 模型填充 /142
4.5 降維 /143
4.5.1 主成分分析(Principal Components Analysis) /143
4.5.2 因子分析(Exploratory Factor Analysis) /154
第5章 聚類 /160
5.1 K均值(K-Means)算法 /161
5.1.1 K均值算法的核心概念 /161
5.1.2 電信套餐制定案例 /164
5.2 DBSCAN算法 /169
5.2.1 DBSCAN算法核心概念 /170
5.2.2 用戶常活動區域挖掘案例 /173
5.3 層次聚類算法 /175
5.3.1 演示:聚類層次的計算過程 /175
5.3.2 基於運營商基站信息挖掘商圈案例 /178
第6章 關聯 /184
6.1 關聯規則(Association Rules) /185
6.1.1 關聯規則的核心概念 /186
6.1.2 超市關聯規則挖掘案例 /188
6.1.3 超市關聯規則解讀 /192
6.2 協同過濾(Collaborative Filtering) /192
6.2.1 協同過濾算法的實現 /193
6.2.2 安裝scikit-surprise模組 /196
6.2.3 基於電影數據的協同過濾案例 /197
6.3 奇異值分解(Singular Value Decomposition) /201
第7章 時間序列分析 /206
7.1 時間序列分解(Time-Series Decomposition) /206
7.1.1 非季節性時間序列分解 /207
7.1.2 季節性時間序列 /211
7.2 序列預測 /214
7.2.1 把不平穩的時間序列轉換成平穩的時間序列 /214
7.2.2 自回歸模型(Autoregressive Model) /219
7.2.3 移動平均模型(Moving Average Model) /220
7.2.4 自回歸移動平均模型(Autoregressive Moving Average Model) /221
第8章 模型持久化 /226
8.1 保存模型 /226
8.2 恢復模型 /228
8.3 管道模型 /229

作者簡介

方小敏,資深機器學習工程師;中山大學數字治理研究中心技術顧問;曾服務於騰訊等知名網際網路企業,熟練掌握Python、R、Spark、Hive、TensorFlow等工具進行機器學習。
3.3.3 樸素貝葉斯分類算法在離散型特徵上的求解 /68
3.3.4 樸素貝葉斯分類算法在連續型特徵上的求解 /71
3.3.5 使用議員在議案上的投票記錄預測其所屬黨派案例 /83
3.3.6 根據商戶數據預測其是否續約案例 /85
3.3.6 根據新聞文本預測其所屬分類案例 /86
3.4 決策樹(Decision Tree) /89
3.4.1 決策樹分類 /89
3.4.2 決策樹分類算法原理 /91
3.4.3 使用高中生基本信息預測其是否計畫升學案例 /93
3.4.4 案例解讀 /102
3.5 隨機森林(RandomForest) /104
3.5.1 隨機森林的特點 /104
3.5.2 格線搜尋 /106
3.5.3 使用隨機森林算法提升決策樹算法效果案例 /107
3.6 支持向量機(Support Vector Machine) /111
3.6.1 支持向量機的核心原理 /111
3.6.2 根據葡萄酒成分數據預測其分類案例 /116
3.7 邏輯回歸(Logistic Regression) /118
3.7.1 邏輯回歸的核心概念 /118
3.7.2 邏輯回歸的數學推導 /119
3.7.3 使用住戶信息預測房屋是否屋主所有案例 /120
第4章 特徵工程 /124
4.1 描述性統計分析 /125
4.2 數據標準化 /127
4.2.1 Min-Max標準化 /128
4.2.2 Z-Score 標準化 /129
4.2.3 Normalizer歸一化 /131
4.3 數據變換 /132
4.3.1 二值化 /132
4.3.2 分桶 /135
4.3.3 冪變換(Power Transforms) /138
4.4 缺失值處理 /139
4.4.1 刪除缺失值所在的行 /140
4.4.2 均值/眾數/中值填充 /141
4.4.3 模型填充 /142
4.5 降維 /143
4.5.1 主成分分析(Principal Components Analysis) /143
4.5.2 因子分析(Exploratory Factor Analysis) /154
第5章 聚類 /160
5.1 K均值(K-Means)算法 /161
5.1.1 K均值算法的核心概念 /161
5.1.2 電信套餐制定案例 /164
5.2 DBSCAN算法 /169
5.2.1 DBSCAN算法核心概念 /170
5.2.2 用戶常活動區域挖掘案例 /173
5.3 層次聚類算法 /175
5.3.1 演示:聚類層次的計算過程 /175
5.3.2 基於運營商基站信息挖掘商圈案例 /178
第6章 關聯 /184
6.1 關聯規則(Association Rules) /185
6.1.1 關聯規則的核心概念 /186
6.1.2 超市關聯規則挖掘案例 /188
6.1.3 超市關聯規則解讀 /192
6.2 協同過濾(Collaborative Filtering) /192
6.2.1 協同過濾算法的實現 /193
6.2.2 安裝scikit-surprise模組 /196
6.2.3 基於電影數據的協同過濾案例 /197
6.3 奇異值分解(Singular Value Decomposition) /201
第7章 時間序列分析 /206
7.1 時間序列分解(Time-Series Decomposition) /206
7.1.1 非季節性時間序列分解 /207
7.1.2 季節性時間序列 /211
7.2 序列預測 /214
7.2.1 把不平穩的時間序列轉換成平穩的時間序列 /214
7.2.2 自回歸模型(Autoregressive Model) /219
7.2.3 移動平均模型(Moving Average Model) /220
7.2.4 自回歸移動平均模型(Autoregressive Moving Average Model) /221
第8章 模型持久化 /226
8.1 保存模型 /226
8.2 恢復模型 /228
8.3 管道模型 /229

作者簡介

方小敏,資深機器學習工程師;中山大學數字治理研究中心技術顧問;曾服務於騰訊等知名網際網路企業,熟練掌握Python、R、Spark、Hive、TensorFlow等工具進行機器學習。

相關詞條

熱門詞條

聯絡我們