內容簡介
本書是一本全面介紹數據挖掘技術的專業書籍,系統地闡述了數據挖掘的相關概念、原理、算法思想和算法的Python代碼實現。全書共分13章,各章相對獨立成篇,以利於讀者選擇性學習。13章內容分別為緒論、pandas數據處理、認識數據、數據預處理、決策樹分類、貝葉斯分類、支持向量機分類、感知器分類、回歸、聚類、關聯規則挖掘、推薦系統、電商評論網路爬取與情感分析。 本書可作為高等院校計算機科學與技術、數據科學與大數據及相關專業的數據挖掘、數據分析課程教材,亦可作為數據挖掘、數據分析人員的參考書。
圖書目錄
第1章緒論1
1.1數據挖掘的相關概念1
1.2數據挖掘的步驟2
1.3數據挖掘的典型套用3
1.3.1數據挖掘在市場行銷中的套用3
1.3.2數據挖掘在企業危機管理中的套用3
1.4數據挖掘的主要挑戰3
1.4.1數據挖掘查詢語言3
1.4.2用戶互動4
1.4.3並行、分布和增量挖掘算法4
1.4.4數據類型的多樣化4
1.5本章小結5
第2章pandas數據處理6
2.1Series對象6
2.1.1Series對象的創建6
2.1.2Series對象的屬性8
2.1.3Series對象的查看和修改8
2.2Series對象的基本運算9
2.2.1算術運算與函式運算9
2.2.2Series對象之間的運算10
2.3DataFrame對象10
2.3.1DataFrame對象的創建10
2.3.2DataFrame對象的屬性12
2.3.3查看和修改DataFrame對象的元素14
2.3.4判斷元素是否屬於DataFrame對象16
2.4DataFrame對象的基本運算17
2.4.1數據篩選17
2.4.2數據預處理19
2.4.3數據運算與排序33
2.4.4數學統計38
2.4.5數據分組與聚合44
2.5pandas數據可視化51
2.5.1繪製折線圖52
2.5.2繪製條形圖53
2.6pandas讀寫數據55
2.6.1讀寫csv檔案56
2.6.2讀取txt檔案59
2.6.3讀寫Excel檔案60
2.7本章小結64
第3章認識數據65
3.1數據類型65
3.1.1屬性類型65
3.1.2數據集的類型66
3.2數據質量分析67
3.2.1缺失值分析68
3.2.2異常值分析69
3.2.3一致性分析72
3.3數據特徵分析72
3.3.1分布特徵72
3.3.2統計量特徵73
3.3.3周期性特徵78
3.3.4相關性特徵80
3.4本章小結81
第4章數據預處理82
4.1數據清洗82
4.1.1處理缺失值82
4.1.2噪聲數據處理89
4.2數據集成90
4.2.1實體識別問題90
4.2.2屬性冗餘問題91
4.2.3元組重複問題91
4.2.4屬性值衝突問題92
4.3數據規範化92
4.3.1小規範化92
4.3.2z分數規範化94
4.3.3小數定標規範化94
4.4數據離散化94
4.4.1無監督離散化95
4.4.2監督離散化96
4.5數據歸約96
4.5.1過濾法97
4.5.2包裝法99
4.5.3嵌入法99
4.6數據降維100
4.6.1主成分分析法101
4.6.2線性判別分析法101
4.7學生考試成績預處理102
4.8本章小結106
第5章決策樹分類107
5.1相似性和相異性的度量107
5.1.1數據對象之間的相異度107
5.1.2數據對象之間的相似度109
5.2分類概述111
5.2.1分類的基本概念111
5.2.2分類的一般流程112
5.3決策樹分類概述113
5.3.1決策樹的工作原理113
5.3.2選擇劃分屬性的度量117
5.3.3決策樹分類待測樣本的過程120
5.4ID3決策樹120
5.4.1ID3決策樹的工作原理120
5.4.2Python實現ID3決策樹122
5.4.3使用ID3決策樹預測貸款申請130
5.4.4ID3決策樹的缺點131
5.5C4.5決策樹的分類算法131
5.5.1C4.5決策樹的工作原理131
5.5.2Python實現C4.5決策樹133
5.5.3使用C4.5決策樹預測鳶尾花類別139
5.6CART決策樹139
5.6.1CART決策樹的工作原理139
5.6.2Python實現CART決策樹139
5.7本章小結143
第6章貝葉斯分類144
6.1貝葉斯定理144
6.1.1機率基礎144
6.1.2貝葉斯定理簡介146
6.1.3先驗機率與後驗機率147
6.2樸素貝葉斯分類的原理與分類流程147
6.2.1貝葉斯分類原理147
6.2.2樸素貝葉斯分類的流程147
6.3高斯樸素貝葉斯分類150
6.3.1scikitlearn實現高斯樸素貝葉斯分類150
6.3.2Python實現iris高斯樸素貝葉斯分類151
6.4多項式樸素貝葉斯分類156
6.5伯努利樸素貝葉斯分類157
6.6本章小結157
第7章支持向量機分類158
7.1支持向量機概述158
7.1.1支持向量機的分類原理158
7.1.2邊緣超平面158
7.2線性支持向量機159
7.2.1線性決策邊界159
7.2.2線性分類器邊緣160
7.2.3訓練線性支持向量機模型161
7.3Python實現支持向量機163
7.3.1SVC支持向量機分類模型164
7.3.2NuSVC支持向量機分類模型166
7.3.3LinearSVC支持向量機分類模型167
7.4本章小結168
第8章感知器分類169
8.1人工神經元169
8.1.1神經元概述169
8.1.2激活函式170
8.2感知器171
8.2.1感知器模型171
8.2.2感知器學習算法172
8.3Python實現感知器學習算法概述174
8.3.1Python實現感知器學習算法174
8.3.2使用感知器分類鳶尾花數據175
8.4本章小結177
第9章回歸178
9.1回歸概述178
9.1.1回歸的概念178
9.1.2回歸處理流程178
9.1.3回歸的分類178
9.2一元線性回歸178
9.2.1一元線性回歸模型178
9.2.2使用一元線性回歸預測房價182
9.3多元線性回歸185
9.3.1多元線性回歸模型185
9.3.2使用多元線性回歸分析廣告媒介與銷售額之間的關係187
9.3.3多元線性回歸模型預測電能輸出188
9.4非線性回歸191
9.4.1多項式回歸191
9.4.2非多項式的非線性回歸195
9.5邏輯回歸198
9.5.1邏輯回歸模型199
9.5.2對鳶尾花數據進行邏輯回歸分析201
9.6本章小結203
第10章聚類204
10.1聚類概述204
10.1.1聚類的概念204
10.1.2聚類方法類型205
10.1.3聚類套用領域206
10.2k均值聚類206
10.2.1k均值聚類的原理206
10.2.2Python實現對鳶尾花的k均值聚類208
10.3層次聚類方法211
10.3.1層次聚類的原理211
10.3.2Python實現凝聚層次聚類214
10.3.3BIRCH聚類的原理217
10.3.4Python實現BIRCH聚類220
10.4密度聚類221
10.4.1密度聚類的原理221
10.4.2Python實現DBSCAN密度聚類224
10.5本章小結227
第11章關聯規則挖掘228
11.1關聯規則挖掘概述228
11.1.1購物籃分析228
11.1.2關聯規則相關概念229
11.1.3關聯規則類型231
11.2頻繁項集的產生232
11.2.1先驗原理233
11.2.2Apriori算法產生頻繁項集233
11.2.3候選項集的產生與剪枝236
11.2.4頻繁項集及其支持度的Python實現237
11.3關聯規則的產生239
11.3.1關聯規則產生的原理239
11.3.2Apriori算法產生關聯規則的方式240
11.3.3頻繁項集的緊湊表示241
11.4FP增長算法242
11.4.1構建FP樹243
11.4.2FP樹的挖掘245
11.5本章小結247
第12章推薦系統248
12.1推薦系統的概念248
12.1.1基本概念248
12.1.2推薦系統的類型249
12.2基於內容的推薦250
12.2.1文本表示251
12.2.2文本相似度257
12.2.3Python實現基於內容的推薦258
12.3基於用戶的協同過濾推薦261
12.3.1收集用戶偏好262
12.3.2尋找相似的用戶262
12.3.3為相似的用戶推薦商品266
12.4基於物品的協同過濾推薦267
12.4.1獲取用戶對物品的評分267
12.4.2計算物品共同出現的次數和一個物品被多少個用戶購買268
12.4.3計算物品之間的相似度268
12.4.4給用戶推薦物品269
12.5本章小結270
第13章電商評論網路爬取與情感分析271
13.1網路爬蟲概述271
13.1.1網頁的概念271
13.1.2網路爬蟲的工作流程271
13.2使用BeautifulSoup庫提取網頁信息272
13.2.1BeautifulSoup的安裝272
13.2.2BeautifulSoup庫的導入272
13.2.3BeautifulSoup類的基本元素273
13.2.4HTML內容搜尋274
13.3使用urllib庫編寫簡單的網路爬蟲277
13.3.1傳送不帶參數的GET請求277
13.3.2模擬瀏覽器傳送帶參數的GET請求278
13.3.3URL解析279
13.4爬取小米手機評論280
13.4.1網站頁面分析280
13.4.2編寫小米手機評論爬蟲代碼283
13.5對手機評論文本進行情感分析286
13.5.1文本情感傾向分析的層次286
13.5.2中文文本情感傾向分析287
13.5.3評論文本情感傾向分析288
13.5.4評論文本分詞290
13.5.5去除停用詞291
13.5.6評論文本的LDA主題分析292
13.6本章小結297
參考文獻298
作者簡介
曹潔 男,博士,現為鄭州輕工業大學軟體學院校聘副教授。主講《Python語言程式設計》、《數據挖掘》。主編出版《Python語言程式設計》、《Python數據分析》、《大數據技術》等多本教材。