Python商業數據挖掘(第6版)

Python商業數據挖掘(第6版)

《Python商業數據挖掘(第6版)》是清華大學出版社於2021年出版的書籍,作者是[美]蓋麗特·徐茉莉(Galit Shmueli)、[美]彼得·C.布魯斯 (Peter C. Bruce)、[美]彼得·戈德克(Peter Gedeck)和[美]尼廷·R.帕特爾(Nitin R. Patel) ,譯者是吳文國和金柏琪。

基本介紹

  • 中文名:Python商業數據挖掘(第6版)
  • 作者:蓋麗特·徐茉莉、彼得·C.布魯斯、彼得·戈德克、尼廷·R
  • 譯者:吳文國 / 金柏琪
  • 出版時間:2021年11月1日
  • 出版社:清華大學出版社
  • ISBN:9787302590248 
  • 開本:16 開
  • 裝幀:平裝
內容簡介,作者簡介,圖書目錄,

內容簡介

本書前5版好評如潮,作為第6版,本書首次使用了Python語言。本書除了介紹用於統計和機器學習等領域的預測、分類、可視化、降維、推薦系統、聚類、文本挖掘、網路分析等方法之外,內容還包括: ● 新加入的合著者Peter Gedeck擁有使用Python講解商業分析課程的豐富經驗以及將機器學習套用於新藥發現過程的專業技能。在本書中,他十分樂於將這些經驗和技能與讀者分享。 ● 討論數據挖掘中的倫理問題。 ● 根據教師和學生的反饋意見對內容做了更新。 ● 通過多個案例展示數據挖掘技術的實際套用。 ● 每章後面的習題有助於讀者評估和加深對該章內容的理解。 ● 線上支持網站提供了數據集、教學資料、習題答案、PPT教案和案例解決方案。

作者簡介

Galit Shmueli博士自2004年以來,一直在美國馬里蘭大學、statistics.com統計網站、印度商學院設計並指導數據挖掘課程。Shmueli的研究領域包括信息系統的統計方法和數據挖掘,她以研究和擅長講授商業分析而聞名,並發表了100多篇文章。
Peter C. Bruce是statistics.com統計網站的統計教育研究院的主席和創辦人,他發表了多篇學術論文,還開發了Resampling Stats軟體。
Peter Gedeck博士是Collabrative Drug Discovery公司的高級數據科學家,他為這家公司開發了一款基於雲的軟體來管理新藥發現過程中用到的海量數據,他還在statistics.com統計網站上教授數據挖掘課程。
Nitin R. Patel博士是位於麻薩諸塞州劍橋市的Cytel公司的共同創始人和董事,是美國統計協會會員,同時還是麻省理工學院和哈佛大學的客座教授。

圖書目錄

第I 部分 預備知識
第1 章 引言..................3
1.1 商業分析簡介....................3
1.2 什麼是數據挖掘..........................4
1.3 數據挖掘及相關術語..................4
1.4 大數據.......................5
1.5 數據科學..................6
1.6 為什麼有這么多不同的方法.................6
1.7 術語與符號........................7
1.8 本書的線路圖....................8
第2 章 數據挖掘過程概述....................11
2.1 引言................11
2.2 數據挖掘的核心思想................11
2.2.1 分類................11
2.2.2 預測................12
2.2.3 關聯規則與推薦系統........................12
2.2.4 預測分析...................12
2.2.5 數據規約與降維技術........................12
2.2.6 數據探索和可視化...........................12
2.2.7 監督學習與無監督學習....................13
2.3 數據挖掘步驟..................13
2.4 前期步驟................15
2.4.1 數據集的組織.......................15
2.4.2 預測West Roxbury 小區的房價........15
2.4.3 在Python 程式中載入並瀏覽數據....16
2.4.4 Python 包的導入...................18
2.4.5 從資料庫獲得採樣數據....................18
2.4.6 在分類任務中對小機率事件的
過採樣......................19
2.4.7 數據預處理和數據清理....................19
2.5 預測力和過擬合........................ 24
2.5.1 過擬合...................... 24
2.5.2 數據分區的創建和使用.................... 26
2.6 建立預測模型................. 28
2.7 在本地計算機上用Python 實現
數據挖掘................ 32
2.8 自動化數據挖掘解決方案................... 33
2.9 數據挖掘中的倫理規範....................... 33
2.10 習題....................... 37
第Ⅱ部分 數據探索與降維技術
第3 章 數據可視化......................43
3.1 引言................ 43
3.2 數據實例................ 45
3.3 基本圖形:條形圖、折線圖和
散點圖.................... 46
3.3.1 分布圖:箱線圖和直方圖................ 48
3.3.2 熱圖:可視化相關性和缺失值......... 51
3.4 多維數據的可視化.................... 53
3.4.1 添加變數:顏色、大小、形狀、
多面板和動畫...................... 53
3.4.2 數據操作:重定標、聚合與層次
結構、縮放與過濾........................... 56
3.4.3 趨勢線和標籤...................... 59
3.4.4 擴展到大型數據集........................... 60
3.4.5 多變數圖:平行坐標圖.................... 62
3.4.6 互動式可視化...................... 63
3.5 專用的可視化技術.................... 65
3.5.1 網路數據可視化................... 65
3.5.2 層次數據可視化:樹狀結構圖......... 66
3.5.3 地理數據可視化:地圖.................... 68
3.6 小結................71
3.7 習題................71
第4 章 降維........................75
4.1 引言................75
4.2 維數的詛咒......................75
4.3 實際考慮.................76
4.4 數據摘要.................77
4.5 相關性分析......................80
4.6 減少分類變數的分類值個數...............81
4.7 把分類變數轉換為數值型變數..........82
4.8 主成分分析......................82
4.8.1 主成分.......................87
4.8.2 數據歸一化..........................88
4.8.3 使用主成分進行分類和預測.............91
4.9 利用回歸模型實現降維.......................91
4.10 利用分類樹與回歸樹實現降維........91
4.11 習題.......................91
第Ⅲ部分 性能評價
第5 章 評估預測性能.................97
5.1 引言................97
5.2 評估預測性能..................98
5.3 評估分類器的性能................. 102
5.4 判斷排名性能................111
5.5 過採樣...................115
5.6 習題.......................119
第Ⅳ部分 預測與分類方法
第6 章 多元線性回歸..........................125
6.1 引言...................... 125
6.2 解釋模型和預測模型......................... 126
6.3 估計回歸方程和預測結果................ 127
6.4 線性回歸中的變數選擇.................... 131
6.4.1 減少預測變數的數量..................... 131
6.4.2 正則化(收縮模型).......................... 136
6.5 statmodels 包的使用........................... 138
6.6 習題...................... 139
第7 章 k-近鄰算法....................143
7.1 k-近鄰分類器(分類結果變數).......... 143
7.1.1 確定近鄰記錄.................... 143
7.1.2 分類規則.................144
7.1.3 實例:駕駛式割草機......................144
7.1.4 設定臨界值........................148
7.1.5 多類別的k-近鄰算法.....................149
7.1.6 把分類變數轉換為二元虛擬
變數........................149
7.2 將k-近鄰算法套用於數值型
結果變數........................149
7.3 k-近鄰算法的優缺點..........................151
7.4 習題.......................151
第8 章 樸素貝葉斯分類器.................155
8.1 引言.......................155
8.1.1 臨界機率方法....................155
8.1.2 條件機率.................156
8.2 使用完全或精準的貝葉斯
分類器...................157
8.2.1 使用“歸類為最有可能的類別”
準則........................157
8.2.2 使用臨界機率方法.........................157
8.2.3 精準貝葉斯方法存在的實際問題...157
8.2.4 樸素貝葉斯的獨立條件假設...........158
8.3 樸素貝葉斯分類器的優缺點............164
8.4 習題.......................165
第9 章 分類樹與回歸樹.....................167
9.1 引言.......................167
9.2 分類樹...................169
9.3 評估分類樹的性能..................175
9.4 如何避免過擬合......................178
9.4.1 停止樹的生長....................179
9.4.2 調節分類樹的參數.........................180
9.4.3 限制分類樹規模的其他方法...........182
9.5 從分類樹推斷分類規則.....................183
9.6 多於兩個類別的分類樹.....................183
9.7 回歸樹...................183
9.8 改進預測方法:隨機森林法和
提升樹...................186
9.8.1 隨機森林法........................186
9.8.2 提升樹....................188
9.9 樹的優缺點....................189
9.10 習題.....................190
第10 章 Logistic 回歸.........................193
10.1 引言.....................193
10.2 Logistic 回歸模型..................194
10.3 實例:接受個人貸款申請...............196
10.3.1 只有單個預測變數的模型..........196
10.3.2 根據數據估計Logistic 模型:
計算參數估計值.........................197
10.3.3 用幾率解釋結果(用於分析目的)...................199
10.4 評估分類性能.........................200
10.5 用於多類別分類的Logistic
回歸.....................202
10.5.1 定序類別........................202
10.5.2 定類類別........................203
10.5.3 比較定序類別模型和定類
類別模型.......................204
10.6 分析實例:預測航班是否延誤......206
10.6.1 訓練模型........................210
10.6.2 模型的解釋....................211
10.6.3 模型的性能....................212
10.6.4 變數選擇........................213
10.7 statmodels 包的使用..........................216
10.8 習題.....................217
第11 章 神經網路.....................221
11.1 引言.....................221
11.2 神經網路的概念和結構...................222
11.3 在數據上擬合神經網路...................222
11.3.1 計算節點的輸出結果..................223
11.3.2 訓練模型........................225
11.3.3 對事故的嚴重程度進行分類.......229
11.3.4 避免過擬合....................231
11.3.5 把神經網路的輸出結果用於
預測和分類....................231
11.4 要求用戶輸入.........................231
11.5 探索預測變數與因變數的關係......232
11.6 深度學習......................232
11.6.1 卷積神經網路................233
11.6.2 局部特徵圖....................234
11.6.3 層次特徵........................234
11.6.4 學習過程........................235
11.6.5 無監督學習....................235
11.6.6 結論....................236
11.7 神經網路的優缺點................236
11.8 習題.....................237
第12 章 判別分析..................... 239
12.1 引言.....................239
12.2 記錄與類別的距離...........................241
12.3 Fisher 線性分類函式........................242
12.4 判別分析的分類性能.......................245
12.5 先驗機率......................245
12.6 誤分類成本不均等...........................246
12.7 多類別情形下的分類.......................246
12.8 判別分析的優缺點...........................249
12.9 習題.....................250
第13 章 組合方法:集成學習和增益
模型................... 253
13.1 集成學習......................253
13.1.1 為什麼集成學習可以改進
預測能力.......................254
13.1.2 集成學習的優缺點.....................257
13.2 增益(說服)模型.....................257
13.2.1 建立一個簡單的預測模型..........260
13.2.2 建立增益模型................260
13.2.3 使用Python 程式計算增益.........261
13.2.4 套用增益模型的結果.................262
13.3 小結.....................262
13.4 習題.....................263
第Ⅴ部分 挖掘記錄之間的關係
第14 章 關聯規則和協同過濾...................... 267
14.1 關聯規則......................267
14.1.1 從交易資料庫中發現
關聯規則.......................268
14.1.2 生成候選規則................269
14.1.3 Apriori 算法...................270
14.1.4 選擇強規則....................270
14.1.5 數據格式.......................271
14.1.6 規則的選擇過程........................273
14.1.7 解釋結果.......................274
14.2 協同過濾......................277
14.2.1 數據類型與數據格式................. 278
14.2.2 基於用戶的協同過濾................. 279
14.2.3 基於項的協同過濾.................... 281
14.2.4 協同過濾的優缺點.................... 282
14.2.5 協同過濾與關聯規則................. 283
14.3 小結.................... 284
14.4 習題.................... 284
第15 章 聚類分析.....................289
15.1 引言.................... 289
15.2 計算兩條記錄之間的距離.............. 292
15.2.1 歐幾里得距離........................... 292
15.2.2 數值型觀測值的歸一化處理...... 293
15.2.3 數值型數據的其他距離度量
方法................... 294
15.2.4 分類數據的距離度量................. 295
15.2.5 混合數據的距離度量................. 296
15.3 計算兩個簇之間的距離.................. 296
15.4 (凝聚)層次聚類..................... 298
15.4.1 樹狀圖:顯示聚類過程和
結果................... 299
15.4.2 驗證簇.......................... 301
15.4.3 層次聚類的局限性.................... 303
15.5 非層次聚類:k-均值聚類............... 304
15.6 習題.................... 308
第Ⅵ部分 時間序列預測
第16 章 時間序列分析.......................313
16.1 引言.................... 313
16.2 描述性模型與預測性模型.............. 314
16.3 商業領域常用的預測方法.............. 314
16.4 時間序列的主要成分....................... 315
16.5 數據分割與性能評估....................... 318
16.5.1 基準性能:樸素預測................. 318
16.5.2 生成未來預測結果.................... 321
16.6 習題.................... 321
第17 章 基於回歸的預測...................325
17.1 趨勢模型..................... 325
17.1.1 線性趨勢....................... 325
17.1.2 指數趨勢....................... 329
17.1.3 多項式趨勢................... 330
17.2 季節性效應模型................... 330
17.3 趨勢和季節性效應模型...................333
17.4 自相關和ARIMA 模型...................334
17.4.1 計算自相關性................334
17.4.2 加入自相關信息以提高預測
準確度................336
17.4.3 評估可預測性................339
17.5 習題.....................339
第18 章 平滑法.........................349
18.1 引言.....................349
18.2 移動平均法..................350
18.2.1 用於可視化的中心移動
平均法................350
18.2.2 用於預測的尾移動平均法..........352
18.2.3 時間視窗寬度的選擇.................354
18.3 簡單的指數平滑法................354
18.3.1 平滑參數α 的選擇.....................355
18.3.2 移動平均法與簡單指數平滑法
的關係................356
18.4 高級指數平滑法....................356
18.4.1 包含趨勢的序列........................356
18.4.2 包含趨勢和季節性效應的
序列...................357
18.4.3 包含季節性效應但不包含趨勢
的序列................359
18.5 習題.....................359
第Ⅶ部分 數據分析
第19 章 社交網路分析.......................369
19.1 引言.....................369
19.2 有向網路與無向網路.......................370
19.3 社交網路的可視化和分析...............371
19.3.1 網路圖的布局................372
19.3.2 邊表....................373
19.3.3 鄰接矩陣.......................373
19.3.4 在分類和預測中使用社交
網路數據.......................374
19.4 社交網路指標和分類法...................374
19.4.1 節點級中心度指標.....................374
19.4.2 自我中心網路................375
19.4.3 社交網路度量指標.....................376
19.5 在分類和預測中套用網路指標......378
19.5.1 連線預測........................378
19.5.2 個體解析........................378
19.5.3 協同過濾........................379
19.6 使用Python 收集社交網路數據.....381
19.7 社交網路分析的優缺點...................382
19.8 習題.....................383
第20 章 文本挖掘.....................385
20.1 引言.....................385
20.2 文本數據的表格表示法:項-文檔
矩陣和詞袋..................386
20.3 詞袋法與文檔級提取.......................387
20.4 預處理文本..................387
20.4.1 分詞....................388
20.4.2 文本壓縮........................389
20.4.3 出現/不出現與詞頻....................391
20.4.4 詞頻-逆文本頻率(TF-IDF)..........391
20.4.5 從項到概念:隱性語義索引.......392
20.4.6 提取語義........................393
20.5 數據挖掘方法的實現.......................393
20.6 實例:關於汽車和電子產品的
線上討論......................393
20.6.1 導入記錄並為記錄貼上標籤.......394
20.6.2 使用Python 程式對文本進行
預處理................394
20.6.3 生成概念矩陣................395
20.6.4 擬合預測模型................395
20.6.5 預測....................396
20.7 小結.....................396
20.8 習題.....................396
第Ⅷ部分 案例
第21 章 案例....................401
21.1 查爾斯圖書俱樂部................401
21.1.1 背景分析........................401
21.1.2 查爾斯圖書俱樂部的資料庫
行銷手段.......................402
21.1.3 數據挖掘技術................403
21.1.4 任務....................404
21.2 德國信用卡..................405
21.2.1 背景分析........................405
21.2.2 數據...................405
21.2.3 任務...................408
21.3 Tayko 軟體銷售公司........................408
21.3.1 背景分析.......................408
21.3.2 郵件傳送實驗................409
21.3.3 數據...................409
21.3.4 任務...................410
21.4 政治遊說......................410
21.4.1 背景分析.......................410
21.4.2 預測分析出現在美國總統
大選中................ 411
21.4.3 政治定位....................... 411
21.4.4 增益................... 411
21.4.5 數據...................412
21.4.6 任務...................412
21.5 計程車取消問題....................413
21.5.1 背景分析.......................413
21.5.2 任務...................413
21.6 香皂用戶的細分....................413
21.6.1 背景分析.......................413
21.6.2 關鍵問題.......................414
21.6.3 數據...................414
21.6.4 測試品牌忠誠度........................415
21.6.5 任務...................415
21.7 直郵捐贈......................416
21.7.1 背景...................416
21.7.2 數據...................416
21.7.3 任務...................417
21.8 產品目錄交叉銷售...........................417
21.8.1 背景分析.......................417
21.8.2 任務...................418
21.9 預測公共運輸需求...........................418
21.9.1 背景分析.......................418
21.9.2 問題描述.......................418
21.9.3 數據...................418
21.9.4 目標...................419
21.9.5 任務...................419
21.9.6 提示和步驟....................419
附錄 Python 工具函式........................ 421

相關詞條

熱門詞條

聯絡我們