數據科學實戰手冊(第2版)

數據科學實戰手冊(第2版)

《數據科學實戰手冊(第2版)》是2019年12月人民郵電出版社出版的圖書,作者是[印度]普拉罕·塔塔、[美]托尼·奧赫達、肖恩·派屈克·墨菲。

基本介紹

  • 中文名:數據科學實戰手冊(第2版)
  • 作者:[印度]普拉罕·塔塔、[美]托尼·奧赫達、肖恩·派屈克·墨菲
  • 出版社:人民郵電出版社
  • 出版時間:2019年12月
  • 頁數:304 頁
  • 定價:69 元
  • 開本:16 開
  • 裝幀:平裝
  • ISBN:9787115499257
內容簡介,圖書目錄,

內容簡介

本書對想學習數據分析的人來說是一本非常實用的參考書,書中有多個真實的數據分析案例,幾乎是以手把手的方式教你一步一步地完成從數據分析的準備到分析結果報告的整個流程。無論是數據分析工作的從業者,還是有志於未來從事數據分析工作的在校大學生,都能從本書中獲取一些新知識、新思想。
同時,本書也是一本學習和提高R及Python編程的參考書。很多人有這樣的感觸,單純地學習程式語言是很枯燥的過程,但利用本書學習R和Python語言可以很好地解決這個問題,生動實用的數據集以及非常有意思的分析結果會極大地激發讀者學習的興趣。
本書案例包括汽車數據分析、稅收數據分析、就業數據分析、股市數據分析、社交網路分析、大規模電影推薦、Twitter數據分析、紐西蘭海外遊客預測分析以及德國信用數據分析等。

圖書目錄

第 1章 準備數據科學環境 1
1.1 理解數據科學管道 2
1.1.1 操作流程 2
1.1.2 工作原理 3
1.2 在Windows、Mac OS X和Linux上安裝R 4
1.2.1 準備工作 4
1.2.2 操作流程 4
1.2.3 工作原理 6
1.3 在R和RStudio中安裝擴展包 6
1.3.1 準備工作 6
1.3.2 操作流程 6
1.3.3 工作原理 8
1.3.4 更多內容 8
1.4 在Linux和Mac OS X上安裝Python 9
1.4.1 準備工作 9
1.4.2 操作流程 9
1.4.3 工作原理 9
1.5 在Windows上安裝Python 10
1.5.1 操作流程 10
1.5.2 工作原理 11
1.6 在Mac OS X和Linux上安裝Python資料庫 11
1.6.1 準備工作 11
1.6.2 操作流程 12
1.6.3 工作原理 12
1.6.4 更多內容 13
1.7 安裝更多Python包 13
1.7.1 準備工作 14
1.7.2 操作流程 14
1.7.3 工作原理 15
1.7.4 更多內容 15
1.8 安裝和使用virtualenv 15
1.8.1 準備工作 16
1.8.2 操作流程 16
1.8.3 工作原理 18
1.8.4 更多內容 18
第 2章 基於R的汽車數據可視化分析 19
2.1 簡介 19
2.2 獲取汽車燃料效率數據 20
2.2.1 準備工作 20
2.2.2 操作流程 20
2.2.3 工作原理 21
2.3 為你的第 一個分析項目準備好R 21
2.3.1 準備工作 21
2.3.2 操作流程 21
2.3.3 更多內容 22
2.4 將汽車燃料效率數據導入R 22
2.4.1 準備工作 22
2.4.2 操作流程 22
2.4.3 工作原理 24
2.4.4 更多內容 24
2.5 探索並描述燃料效率數據 25
2.5.1 準備工作 25
2.5.2 操作流程 25
2.5.3 工作原理 27
2.5.4 更多內容 28
2.6 分析汽車燃料效率數據隨時間的變化情況 29
2.6.1 準備工作 29
2.6.2 操作流程 29
2.6.3 工作原理 37
2.6.4 更多內容 38
2.7 研究汽車的品牌和型號 38
2.7.1 準備工作 39
2.7.2 操作流程 39
2.7.3 工作原理 41
2.7.4 更多內容 41
第3章 基於Python的稅收數據套用導向分析 42
3.1 簡介 42
3.2 高收入數據分析的準備工作 44
3.2.1 準備工作 44
3.2.2 操作流程 44
3.2.3 工作原理 45
3.3 導入並探索性地分析世界高收入數據集 45
3.3.1 準備工作 45
3.3.2 操作流程 45
3.3.3 工作原理 51
3.3.4 更多內容 52
3.4 分析並可視化美國高收入數據 53
3.4.1 準備工作 53
3.4.2 操作流程 53
3.4.3 工作原理 59
3.5 進一步分析美國高收入群體 60
3.5.1 準備工作 60
3.5.2 操作流程 60
3.5.3 工作原理 64
3.6 使用Jinja2匯報結果 64
3.6.1 準備工作 64
3.6.2 操作流程 64
3.6.3 工作原理 69
3.6.4 更多內容 69
3.7 基於R的數據分析再實現 70
3.7.1 準備工作 70
3.7.2 操作流程 70
3.7.3 更多內容 74
第4章 股市數據建模 75
4.1 簡介 75
4.2 獲取股市數據 76
4.3 描述數據 78
4.3.1 準備工作 78
4.3.2 操作流程 78
4.3.3 工作原理 79
4.3.4 更多內容 79
4.4 清洗並探索性地分析數據 80
4.4.1 準備工作 80
4.4.2 操作流程 80
4.4.3 工作原理 85
4.5 生成相對估值 85
4.5.1 準備工作 86
4.5.2 操作流程 86
4.5.3 工作原理 89
4.6 篩選股票並分析歷史價格 90
4.6.1 準備工作 90
4.6.2 操作流程 90
4.6.3 工作原理 95
第5章 就業數據可視化探索 96
5.1 簡介 96
5.2 分析前的準備工作 97
5.2.1 準備工作 97
5.2.2 操作流程 97
5.2.3 工作原理 98
5.3 將就業數據導入R 99
5.3.1 準備工作 99
5.3.2 操作流程 99
5.3.3 工作原理 99
5.3.4 更多內容 100
5.4 探索就業數據 101
5.4.1 準備工作 101
5.4.2 操作流程 101
5.4.3 工作原理 102
5.5 獲取、合併附加數據 103
5.5.1 準備工作 103
5.5.2 操作流程 103
5.5.3 工作原理 105
5.6 添加地理信息 105
5.6.1 準備工作 106
5.6.2 操作流程 106
5.6.3 工作原理 108
5.7 提取州和縣級水平的薪資及就業信息 109
5.7.1 準備工作 109
5.7.2 操作流程 110
5.7.3 工作原理 111
5.8 可視化薪資的地理分布 112
5.8.1 準備工作 112
5.8.2 操作流程 113
5.8.3 工作原理 115
5.9 分行業探索就業機會的地理分布 115
5.9.1 操作流程 116
5.9.2 工作原理 117
5.9.3 更多內容 117
5.10 繪製地理時間序列的動畫地圖 118
5.10.1 準備工作 118
5.10.2 操作流程 118
5.10.3 工作原理 122
5.10.4 更多內容 122
5.11 函式基本性能測試 122
5.11.1 準備工作 123
5.11.2 操作流程 123
5.11.3 工作原理 125
5.11.4 更多內容 125
第6章 汽車數據可視化(基於Python) 126
6.1 簡介 126
6.2 IPython入門 127
6.2.1 準備工作 127
6.2.2 操作流程 127
6.2.3 工作原理 130
6.3 熟悉Jupyter Notebook 130
6.3.1 準備工作 130
6.3.2 操作流程 130
6.3.3 工作原理 132
6.3.4 更多內容 132
6.4 為分析汽車燃料效率做好準備 133
6.4.1 準備工作 133
6.4.2 操作流程 133
6.4.3 工作原理 134
6.4.4 更多內容 134
6.5 用Python探索並描述汽車燃料效率數據 135
6.5.1 準備工作 135
6.5.2 操作流程 135
6.5.3 工作原理 138
6.5.4 更多內容 138
6.6 用Python分析汽車燃料效率隨時間變化的情況 139
6.6.1 準備工作 139
6.6.2 操作流程 139
6.6.3 工作原理 144
6.6.4 更多內容 145
6.7 用Python研究汽車的品牌和型號 146
6.7.1 準備工作 146
6.7.2 操作流程 146
6.7.3 工作原理 149
第7章 社交網路分析(基於Python) 151
7.1 簡介 151
7.2 準備用Python進行社交網路的分析工作 153
7.2.1 準備工作 153
7.2.2 操作流程 154
7.2.3 工作原理 154
7.2.4 更多內容 154
7.3 導入網路 155
7.3.1 準備工作 155
7.3.2 操作流程 155
7.3.3 工作原理 156
7.4 探索英雄網路的子圖 157
7.4.1 準備工作 157
7.4.2 操作流程 158
7.4.3 工作原理 160
7.4.4 更多內容 160
7.5 找出強關聯 160
7.5.1 準備工作 161
7.5.2 操作流程 161
7.5.3 工作原理 163
7.5.4 更多內容 164
7.6 找出關鍵人物 164
7.6.1 準備工作 164
7.6.2 操作流程 164
7.6.3 工作原理 168
7.6.4 更多內容 168
7.7 探索全網特徵 174
7.7.1 準備工作 174
7.7.2 操作流程 174
7.7.3 工作原理 175
7.8 社交網路中的聚類和社群發現 175
7.8.1 準備工作 176
7.8.2 操作流程 176
7.8.3 工作原理 179
7.8.4 更多內容 179
7.9 可視化圖 180
7.9.1 準備工作 180
7.9.2 操作流程 180
7.9.3 工作原理 181
7.10 R中的社交網路分析 182
7.10.1 準備工作 182
7.10.2 操作流程 183
7.10.3 工作原理 188
第8章 大規模電影推薦(基於Python) 189
8.1 簡介 189
8.2 對偏好建模 191
8.2.1 操作流程 191
8.2.2 工作原理 191
8.3 理解數據 192
8.3.1 準備工作 192
8.3.2 操作流程 193
8.3.3 工作原理 194
8.3.4 更多內容 194
8.4 提取電影評分數據 195
8.4.1 準備工作 195
8.4.2 操作流程 195
8.4.3 工作原理 197
8.5 尋找高評分電影 199
8.5.1 準備工作 199
8.5.2 操作流程 199
8.5.3 工作原理 200
8.5.4 更多內容 201
8.6 改善電影評分系統 201
8.6.1 準備工作 201
8.6.2 操作流程 201
8.6.3 工作原理 202
8.6.4 更多內容 203
8.7 計算用戶在偏好空間中的距離 203
8.7.1 準備工作 204
8.7.2 操作流程 204
8.7.3 工作原理 205
8.7.4 更多內容 206
8.8 計算用戶之間的相關性 206
8.8.1 準備工作 206
8.8.2 操作流程 207
8.8.3 工作原理 208
8.8.4 更多內容 208
8.9 為用戶尋找最佳影評人 208
8.9.1 準備工作 209
8.9.2 操作流程 209
8.9.3 工作原理 210
8.10 預測用戶電影評分 211
8.10.1 準備工作 211
8.10.2 操作流程 211
8.10.3 工作原理 212
8.11 基於物品的協同過濾 213
8.11.1 準備工作 214
8.11.2 操作流程 214
8.11.3 工作原理 215
8.12 建立非負矩陣分解模型 216
8.12.1 操作流程 217
8.12.2 工作原理 217
8.13 將數據集載入記憶體 219
8.13.1 準備工作 219
8.13.2 操作流程 219
8.13.3 工作原理 220
8.13.4 更多內容 221
8.14 導出SVD模型到硬碟 221
8.14.1 操作流程 222
8.14.2 工作原理 223
8.15 訓練SVD模型 223
8.15.1 操作流程 223
8.15.2 工作原理 225
8.15.3 更多內容 225
8.16 測試SVD模型 226
8.16.1 操作流程 226
8.16.2 工作原理 226
8.16.3 更多內容 227
第9章 獲取和定位Twitter數據(基於Python) 228
9.1 簡介 228
9.2 創建Twitter套用 229
9.2.1 準備工作 229
9.2.2 操作流程 230
9.2.3 工作原理 232
9.3 了解Twitter API v1.1 232
9.3.1 準備工作 233
9.3.2 操作流程 233
9.3.3 工作原理 234
9.3.4 更多內容 235
9.4 獲取冬粉和好友信息 236
9.4.1 準備工作 236
9.4.2 操作流程 236
9.4.3 工作原理 238
9.4.4 更多內容 238
9.5 獲取Twitter用戶信息 239
9.5.1 準備工作 239
9.5.2 操作流程 239
9.5.3 工作原理 240
9.5.4 更多內容 240
9.6 避免Twitter速度限制 241
9.6.1 準備工作 241
9.6.2 操作流程 241
9.6.3 工作原理 242
9.7 存儲JSON數據至硬碟 242
9.7.1 準備工作 242
9.7.2 操作流程 242
9.7.3 工作原理 243
9.8 搭建MongoDB存儲Twitter數據 243
9.8.1 準備工作 244
9.8.2 操作流程 244
9.8.3 工作原理 245
9.8.4 更多內容 245
9.9 利用PyMongo存儲用戶信息到MongoDB 246
9.9.1 準備工作 246
9.9.2 操作流程 246
9.9.3 工作原理 247
9.10 探索用戶地理信息 247
9.10.1 準備工作 248
9.10.2 操作流程 248
9.10.3 工作原理 249
9.10.4 更多內容 250
9.11 利用Python繪製地理分布圖 250
9.11.1 準備工作 250
9.11.2 操作流程 250
9.11.3 工作原理 251
9.11.4 更多內容 252
第 10章 預測紐西蘭的海外遊客 254
10.1 簡介 254
10.2 時間序列(ts)對象 255
10.2.1 準備工作 256
10.2.2 操作流程 256
10.2.3 工作原理 257
10.3 可視化時間序列數據 257
10.3.1 準備工作 258
10.3.2 操作流程 258
10.3.3 工作原理 260
10.4 簡單的線性回歸模型 261
10.4.1 準備工作 261
10.4.2 操作流程 261
10.4.3 工作原理 265
10.5 ACF和PACF 265
10.5.1 準備工作 266
10.5.2 操作流程 266
10.5.3 工作原理 267
10.6 ARIMA模型 267
10.6.1 準備工作 268
10.6.2 操作流程 268
10.6.3 工作原理 275
10.7 精確性評估 275
10.7.1 準備工作 276
10.7.2 操作流程 276
10.7.3 工作原理 276
10.8 擬合季節性ARIMA模型 277
10.8.1 準備工作 277
10.8.2 操作流程 277
10.8.3 工作原理 279
10.8.4 更多內容 279
第 11章 德國信用數據分析 280
11.1 簡介 280
11.2 簡單數據轉換 281
11.2.1 準備工作 281
11.2.2 操作流程 281
11.2.3 工作原理 283
11.2.4 更多內容 283
11.3 可視化分類數據 283
11.3.1 準備工作 284
11.3.2 操作流程 284
11.3.3 工作原理 286
11.4 判別分析 286
11.4.1 準備工作 287
11.4.2 操作流程 287
11.4.3 工作原理 290
11.5 劃分數據和ROC 290
11.5.1 準備工作 292
11.5.2 操作流程 292
11.6 擬合邏輯回歸模型 293
11.6.1 準備工作 293
11.6.2 操作流程 293
11.6.3 工作原理 297
11.7 決策樹和決策規則 298
11.7.1 準備工作 298
11.7.2 操作流程 298
11.7.3 工作原理 301
11.8 德國信用數據決策樹 301
11.8.1 準備工作 301
11.8.2 操作流程 301
11.8.3 工作原理 304

相關詞條

熱門詞條

聯絡我們