數據挖掘原理、方法及python套用實踐教程

數據挖掘原理、方法及python套用實踐教程

《數據挖掘原理、方法及python套用實踐教程》是2020年11月1日科學出版社出版圖書。

基本介紹

  • 中文名:數據挖掘原理、方法及python套用實踐教程
  • 作者:蔣國銀等
  • 出版社:科學出版社
  • 出版時間:2020年11月1日
  • 頁數:240 頁
  • 開本:16 開
  • 裝幀:平裝
  • ISBN:9787030653543
內容簡介,圖書目錄,

內容簡介

《數據挖掘原理、方法及python套用實踐教程》系統講授數據挖掘的原理、主要方法及其Python實現,共分三部分:第一部分包含第1~2章,介紹數據挖掘的基本概念、流程和數據預處理;第二部分包含第3~11章,介紹經典的分類算法(包括樸素貝葉斯分類器、決策樹、k-近鄰、支持向量機等)、經典的聚類分析、關聯分析、人工神經網路和Web挖掘等方法;第三部包含第12~14章,共有3個綜合案例,包括鐵達尼號生存數據分析、心臟病預測分析和旅遊評論傾向性分析。

圖書目錄

第1章 緒論 1
1.1 數據挖掘的含義 1
1.2 數據挖掘、機器學習與人工智慧 2
1.3 數據挖掘基本任務 4
1.3.1 分類與預測 4
1.3.2 聚類分析 6
1.3.3 關聯分析 7
1.3.4 異常檢測 7
1.3.5 其他任務 8
1.4 數據挖掘流程 9
1.4.1 明確目標 9
1.4.2 數據收集 9
1.4.3 數據探索 10
1.4.4 數據預處理 10
1.4.5 挖掘建模 10
1.4.6 模型評價 11
1.5 數據挖掘常用工具及其比較 11
1.5.1 Python 11
1.5.2 R 11
1.5.3 Weka 12
1.5.4 SPSS Modeler 12
1.5.5 RapidMiner 12
1.6 Python的安裝及使用 13
1.6.1 WinPython 13
1.6.2 Anaconda 14
1.6.3 集成開發環境 15
1.7 本章小結 16
思考題 17
習題 17
本章參考文獻 17
第2章 數據預處理 18
2.1 概述 18
2.2 缺失值的處理 18
2.2.1 缺失值的查找 19
2.2.2 缺失值的刪除 20
2.2.3 缺失值的填充 22
2.3 異常值的處理 23
2.4 數據的標準化 25
2.4.1 Z-score標準化 25
2.4.2 將特徵變數縮放到指定範圍 27
2.4.3 考慮異常值的標準化 28
2.5 數據的正則化 28
2.6 自定義轉換器 30
2.7 生成多項式和互動特徵 30
2.8 本章小結 31
思考題 32
習題 32
第3章 樸素貝葉斯分類器 33
3.1 樸素貝葉斯分類算法相關的統計學知識 33
3.2 極大似然估計 34
3.3 貝葉斯估計 36
3.4 樸素貝葉斯分類算法的Python實現 37
3.5 本章小結 40
思考題 41
習題 41
本章參考文獻 41
第4章 決策樹 42
4.1 決策樹分類算法概述 42
4.2 熵與信息增益 43
4.3 ID3算法 46
4.4 C4.5算法 47
4.5 CART算法 49
4.6 過擬合與決策樹剪枝 52
4.6.1 過擬合 52
4.6.2 決策樹剪枝 52
4.7 分類模型的評估 54
4.7.1 混淆矩陣 54
4.7.2 ROC曲線 57
4.8 實例:決策樹的Python實現 59
4.9 本章小結 62
4.9.1 決策樹ID3、C4.5和CART算法比較 62
4.9.2 決策樹算法優缺點 63
思考題 63
習題 63
本章參考文獻 64
第5章 集成學習 65
5.1 集成學習的思想 65
5.2 集成學習模型:結合策略 67
5.2.1 集成回歸模型的結合策略 67
5.2.2 集成分類模型的結合策略 68
5.3 Bagging方法與隨機森林 68
5.3.1 Bagging方法 68
5.3.2 隨機森林 69
5.4 Boosting方法與Adaboost 70
5.4.1 Boosting方法 70
5.4.2 Adaboost 71
5.5 集成學習模型的Python實現 72
5.6 實例:信用卡還貸情況預測 72
5.7 本章小結 74
思考題 74
習題 75
本章參考文獻 75
第6章 k-近鄰 76
6.1 數據在不同維度上分布的分類表現 76
6.2 算法原理 78
6.3 相似度與距離 79
6.3.1 二維向量空間的KNN分類 79
6.3.2 多維向量空間的KNN分類 80
6.4 k值的選擇 83
6.5 分類決策規則 84
6.6 KNN算法 84
6.7 kd樹 85
6.8 實例:鳶尾花分類 88
思考題 89
習題 89
本章參考文獻 89
第7章 支持向量機 90
7.1 SVM算法介紹 90
7.2 線性可分支持向量機 91
7.2.1 原始問題 91
7.2.2 對偶問題 95
7.2.3 算法過程 97
7.3 線性不可分支持向量機 97
7.3.1 原始問題 98
7.3.2 對偶問題 98
7.3.3 算法過程 99
7.4 非線性支持向量機 100
7.4.1 對偶問題 100
7.4.2 算法過程 101
7.5 實例:鳶尾花分類 102
思考題 103
習題 103
本章參考文獻 103
第8章 人工神經網路 105
8.1 神經網路的基本概念 105
8.2 神經網路的發展過程 107
8.2.1 神經元 107
8.2.2 單層神經網路(感知器) 109
8.2.3 兩層神經網路(多層感知器) 110
8.2.4 神經網路訓練(反向傳播) 113
8.3 實例:mnist手寫數字識別 118
思考題 119
習題 119
本章參考文獻 120
第9章 聚類分析 121
9.1 聚類問題 121
9.1.1 聚類問題的定義 121
9.1.2 聚類的依據:距離的定義 122
9.2 基於原型的聚類方法:k-均值聚類 123
9.2.1 k-均值聚類的原理和過程 123
9.2.2 k-均值聚類的特點 124
9.3 基於密度的聚類方法:DBSCAN 125
9.3.1 DBSCAN聚類方法的原理 126
9.3.2 DBSCAN 聚類方法的特點 127
9.4 基於層次的聚類方法:AGNES 127
9.4.1 AGNES 聚類方法的原理 128
9.4.2 AGNES聚類方法的特點 130
9.5 聚類結果的評價 130
9.6 使用Python進行聚類分析 132
9.7 實例:城市發展潛力評估 133
9.8 本章小結 134
思考題 135
習題 135
本章參考文獻 135
第10章 關聯分析 137
10.1 關聯分析的基本概念 137
10.1.1 問題定義 137
10.1.2 關聯分析的基本步驟 139
10.2 Apriori 關聯分析算法 140
10.2.1 尋找頻繁項集 140
10.2.2 生成關聯規則 141
10.3 FP增長算法 142
10.3.1 生成FP增長樹 142
10.3.2 尋找頻繁項集 144
10.4 使用Python進行關聯分析 145
10.5 實例:電影觀看記錄信息挖掘 145
10.6 本章小結 146
思考題 147
習題 147
本章參考文獻 147
第11章 Web挖掘 148
11.1 Web挖掘概述 148
11.1.1 Web挖掘的概念 148
11.1.2 Web挖掘的特點 148
11.1.3 Web挖掘的分類 149
11.2 Web挖掘技術實現 150
11.2.1 關聯規則挖掘技術 150
11.2.2 序列模式挖掘技術 152
11.2.3 分類挖掘技術 154
11.2.4 聚類挖掘技術 155
11.3 Web數據爬取 156
11.3.1 Web數據爬蟲簡介 157
11.3.2 Web數據處理過程 159
11.3.3 Web爬蟲性能及策略 160
11.4 Web挖掘評價標準 161
11.4.1 查準率與查全率 161
11.4.2 F1值 162
11.4.3 其他評價標準 162
11.5 實例:Web日誌挖掘 164
11.6 本 章 小 結 172
思考題 172
習題 172
本章參考文獻 172
第12章 套用案例一:鐵達尼號生存數據分析 174
12.1 案例背景及分析思路 174
12.2 數 據 解 讀 174
12.3 數據預處理 175
12.3.1 查看數據集 175
12.3.2 缺失值的填充 177
12.4 描述性統計分析 178
12.4.1 性別與生存率之間的關係 178
12.4.2 船艙等級、生存率與性別三者之間的關係 179
12.4.3 年齡與生存率之間的關係 180
12.4.4 登船港口與生存率之間的關係 181
12.4.5 家庭大小與生存率之間的關係 183
12.5 特徵工程 186
12.6 模型構建與評估 190
12.6.1 隨機森林 191
12.6.2 支持向量機 191
12.6.3 樸素貝葉斯模型 192
12.7 本章小結 193
思考題 193
習題 193
第13章 套用案例二:心臟病預測分析 194
13.1 案例背景及分析思路 194
13.2 數據預處理 194
13.2.1 數據集的含義 195
13.2.2 重複值的刪除 196
13.2.3 缺失值處理 197
13.3 數據集的特徵分析 198
13.4 構建模型 199
13.4.1 數據整理 199
13.4.2 KNN 202
13.4.3 隨機森林 204
13.4.4 logistic回歸 205
13.5 模型評估 206
13.5.1 KNN 207
13.5.2 隨機森林 209
13.5.3 logistic回歸 211
13.6 本章小結 212
思考題 212
習題 213
第14章 套用案例三:旅遊評論傾向性分析 214
14.1 案例背景及分析思路 214
14.1.1 案例背景 214
14.1.2 數據分析思路與方法 214
14.2 數據分析準備工作 216
14.2.1 數據爬取 216
14.2.2 數據的預處理 218
14.2.3 描述性分析 222
14.3 特徵工程 224
14.3.1 人工特徵 224
14.3.2 TF-IDF編碼 225
14.3.3 Word2vec編碼 227
14.4 基於傳統分類器的景區評論傾向性分析 230
14.4.1 基於傳統弱分類器的傾向性分析 230
14.4.2 基於隨機森林的傾向性分析 231
14.4.3 基於提升樹的傾向性分析 232
14.5 基於LSTM和FastText的景區評論傾向性分析 233
14.5.1 基於自建詞典的LSTM情感分析模型 233
14.5.2 基於FastText的文本標籤分類模型 235
14.5.3 綜合FastText和LSTM的情感分析模型 237
14.6 模型評估 238
14.7 本章小結 239
思考題 240
習題 240
本章參考文獻 240

相關詞條

熱門詞條

聯絡我們