數據科學實戰手冊R+Python

數據科學實戰手冊R+Python

《數據科學實戰手冊R+Python》是2017年11月人民郵電出版社出版的圖書,作者是[美]托尼·奧傑德、肖恩·派特里克·墨菲、班傑明·班福特、阿布吉特·達斯古普塔。

基本介紹

  • 書名:數據科學實戰手冊R+Python
  • 作者:[美]托尼·奧傑德、肖恩·派特里克·墨菲、班傑明·班福特、阿布吉特·達斯古普塔
  • ISBN:9787115426758
  • 頁數:326頁
  • 定價:59元
  • 出版社:人民郵電出版社
  • 出版時間:2017年11月
  • 裝幀:平裝
  • 開本:16開
內容簡介,圖書目錄,

內容簡介

這本書是基於R和Python的數據科學項目案例集錦,內容涵蓋了基於數據科學的所有要素,包括數據採集、處理、清洗、分析、建模、可視化以及數據產品的搭建。案例包含了汽車數據分析、股票市場建模、社交網路分析、推薦系統、地理信息分析,以及Python代碼的計算最佳化。通過手把手的案例解析,令讀者知其然講茅戰頸並知其所以然。業界的數據分析師、數據挖掘工程師、數據科學家都可以讀一讀。想要了解實際工作中如何用數據產生價值的在校學生,或者對數據科學感興趣的人也值得一讀。

圖書目錄

第 1章 準備你的數據科學環境 1
簡介 1
理解數據科學管道 3
處理流程 3
工作原理 3
在Windows、Mac OS X、Linux上安裝R 5
準備工作 5
處理流程 5
工作原理 7
參考資料 7
在R和RStudio中安裝擴展包 7
準備工作 8
處理流程 8
工作原理 9
更多內容 10
參考資料 10
在Linux和Mac OS X上安裝Python 10
準備工作 11
處理流程 11
工鞏厚墊趨作原理 11
更多內容 11
參考資料 12
在Windows上安裝Python 12
處理流程 13
工作原理 13
參考資料 14
在Mac OS X和Linux上安裝Python數據分析庫 14
準備工作 14
處理流程 14
工作原理 15
更多內容 16
參考資料 16
安裝更多Python包 17
準備工作 17
處理流程 17
工作漿達霉原理 18
更多內容 18
參考資料 18
安裝和使用virtualenv 19
準備工作 19
處理流程 19
工作原理 21
更多內容 21
參考資料 22
第 2章 汽車數據的可視化分析(R) 23
簡介 23
獲取汽車燃料效率數據 24
準備工作 24
處理流程 25
工作原理 25
為了你的第 一個項目準備好R 26
準備工作 26
處理流程 26
工作原理 26
參考資料 26
將汽車燃料效率數據導入R 27
準備工作 27
處理流程 27
工作原理 28
更多內容 29
參考資料 30
探索和描述燃料效率數據 30
準備工作 30
處理流程 30
工作原理 32
更多內容 33
進一步分析放乃邀汽車燃料效率數據 34
準備工作 34
處理流程 34
工作原理 43
參考資料 44
研究汽車的產量以及車型 44
準備工作 44
處理流程 44
工作原理 46
更多內容 47
參考資料 47
第3章 模擬美式橄欖球比賽數據(R) 48
簡介 48
準備工作 49
獲取和清洗美式橄欖球比賽數據 49
準備工作 50
處理流程 50
工作原理 53
參考資料 53
分析和理解美式橄欖球比賽數據 53
準備工作 達拒53
處理流程 53
工作原理 61
更多內容 61
參考資料 62
構建度量攻防能力的指標 62
準備工作 62
處理流程 62
工作原理 64
參考資料 65
模擬單場由程式決定勝負的比賽 65
準備工作 65
處理流榆鑽趨程 65
工作原理 68
模擬多場由計算決定勝負的比賽 68
準備工作 68
處理流程 69
工作原理 73
更多內容 74
第4章 建模分析股票市場數據(R) 75
簡介 75
準備工作 76
獲取股票市場數據 76
處理流程 77
描述數據 78
準備工作 79
工作原理 80
更多內容 81
清洗和研究數據 82
準備工作試棄漿 82
處理流程 82
工作原理 87
參考資料 87
形成相對估值法 87
準備工作 87
處理流程 88
工作原理 91
分析歷史價格篩選股票 92
準備工作 92
處理流程 92
工作原理 98
第5章 就業數據的可視化探索(R) 99
簡介 99
分析前的準備 100
準備工作 101
處理流程 101
工作原理 102
參考資料 102
將就業數據導入R 103
準備工作 103
處理流程 103
工作原理 104
更多內容 104
參考資料 105
就業數據探究 105
準備條件 105
處理流程 105
工作原理 107
參考資料 107
獲取和合併添加附加信息 107
準備工作 107
處理流程 108
工作原理 109
添加地理信息 110
準備工作 110
處理流程 110
工作原理 113
參考資料 114
獲取州和縣級水平的薪資和就業信息 114
準備工作 114
處理流程 114
工作原理 116
參考資料 117
可視化薪資的地理分布特性 117
準備工作 118
處理流程 118
工作原理 120
參考資料 121
探究各行業工作的地理分布情況 121
處理流程 122
工作原理 123
更多內容 124
參考資料 124
繪製地理空間的時間序列地圖 124
準備工作 124
處理流程 125
工作原理 128
更多內容 128
函式性能測試和比較 128
準備工作 129
處理流程 129
工作原理 131
更多內容 132
參考資料 132
第6章 運用稅務數據進行套用導向的數據分析(Python) 133
簡介 133
套用導向方法簡介 134
準備高收入數據集的分析 135
準備工作 135
處理流程 135
工作原理 136
導入並熟悉世界各國高收入數據集 136
準備工作 137
處理流程 137
工作原理 143
更多內容 144
參考資料 144
分析並可視化美國的高收入數據集 144
準備工作 144
處理流程 145
工作原理 151
進一步分析美國的高收入** 152
準備工作 152
處理流程 152
工作原理 156
用Jinja2匯報結果 157
準備工作 157
處理流程 157
工作原理 162
更多內容 162
參考資料 163
第7章 運用汽車數據進行可視化分析(Python) 164
簡介 164
IPython入門 165
準備工作 165
處理流程 165
工作原理 167
參考資料 167
熟悉IPython Notebook 167
準備工作 168
處理流程 168
工作原理 170
更多內容 170
參考資料 171
準備分析汽車油耗 171
準備工作 171
處理流程 171
工作原理 173
更多內容 173
參考資料 174
用Python熟悉並描述汽車油耗數據 174
準備工作 174
處理流程 174
工作原理 177
更多內容 177
參考資料 177
用Python分析汽車油耗隨時間變化趨勢 177
準備工作 177
處理流程 178
工作原理 183
更多內容 184
參考資料 185
用Python調查汽車的製造商和型號 185
準備工作 185
處理流程 185
工作原理 189
參考資料 189
第8章 社交網路分析(Python) 190
簡介 190
理解圖和網路 191
準備用Python進行社交網路的分析工作 192
準備工作 192
處理流程 193
工作原理 193
更多內容 193
導入網路 194
準備工作 194
處理流程 194
工作原理 196
探索英雄網路的子圖 196
準備工作 197
處理流程 197
工作原理 199
更多內容 199
找出強關聯 200
準備工作 201
處理流程 201
工作原理 203
更多內容 204
找出關鍵人物 204
準備工作 205
處理流程 205
工作原理 208
更多內容 209
調查全網的特徵 215
準備工作 216
處理流程 216
工作原理 217
社交網路中的聚類和發現社群 217
準備工作 217
處理流程 218
工作原理 221
更多內容 221
可視化圖 222
準備工作 222
處理流程 222
工作原理 224
第9章 大規模電影推薦(Python) 225
簡介 226
對偏好建模 227
處理流程 227
工作原理 228
理解數據 229
準備工作 229
處理流程 229
工作原理 231
更多內容 231
載入電影評分數據 231
準備工作 231
處理流程 232
工作原理 234
尋找高評分電影 235
準備工作 236
處理流程 236
工作原理 237
更多內容 238
參考資料 238
提升電影評分系統 238
準備工作 238
處理流程 238
工作原理 239
更多內容 240
參考資料 240
計算用戶在偏好空間中的距離 240
準備工作 241
處理流程 241
工作原理 243
更多內容 243
參考資料 243
計算用戶相關性 244
準備工作 244
處理流程 244
工作原理 245
更多內容 246
為特定用戶尋找**好的影評人 246
準備工作 246
處理流程 246
工作原理 247
預測用戶評分 249
準備工作 249
處理流程 249
工作原理 250
基於物品的協同過濾 251
準備工作 251
處理流程 252
工作原理 253
建立非負矩陣分解模型 254
處理流程 255
工作原理 255
參考資料 256
將數據集載入記憶體 256
準備工作 257
處理流程 257
工作原理 258
更多內容 258
導出SVD模型到硬碟 259
處理流程 259
工作原理 260
訓練SVD模型 261
處理流程 261
工作原理 262
更多內容 263
測試SVD模型 264
處理流程 264
工作原理 264
更多內容 264
第 10章 獲取和定位Twitter數據(Python) 266
簡介 266
創建Twitter套用 267
準備工作 268
處理流程 268
工作原理 271
參考資料 271
了解Twitter API v1.1 271
準備工作 272
處理流程 272
工作原理 273
更多內容 274
參考資料 275
獲取冬粉和朋友信息 275
準備工作 275
處理流程 275
工作原理 277
更多內容 277
參考資料 278
提取Twitter用戶檔案 278
準備工作 278
處理流程 278
工作原理 279
更多內容 279
參考資料 280
避免Twitter速度限制 280
準備工作 280
處理流程 280
工作原理 281
存儲JSON數據到硬碟 281
準備工作 282
處理流程 282
工作原理 282
安裝MongoDB 283
準備工作 283
處理流程 283
工作原理 284
更多內容 284
參考資料 285
利用PyMongo將用戶信息存入MongoDB 285
準備工作 285
處理流程 285
工作原理 286
探索用戶地理信息 287
準備工作 287
處理流程 287
工作原理 289
更多內容 290
參考資料 290
利用Python繪製地理分布圖 290
準備工作 290
處理流程 291
工作原理 292
更多內容 293
參考資料 294
第 11章 利用NumPy和SciPy最佳化數值計算(Python) 295
簡介 295
了解最佳化的步驟 297
處理流程 297
工作原理 297
更多內容 298
識別代碼中常見性能瓶頸 298
處理流程 299
工作原理 299
通讀代碼 301
準備工作 302
處理流程 302
工作原理 302
參考資料 304
利用Unix time函式剖析Python代碼 305
準備工作 305
處理流程 305
工作原理 306
參考資料 306
利用Python內建函式剖析Python代碼 306
準備工作 306
處理流程 306
工作原理 307
參考資料 308
利用IPython %timeit函式剖析Python代碼 308
處理流程 308
工作原理 309
利用line_profiler剖析Python代碼 309
準備工作 310
處理流程 310
工作原理 311
更多內容 312
參考資料 312
摘取低處的(經過最佳化的)果實 312
準備工作 312
處理流程 312
工作原理 314
測試NumPy帶來的性能提升 315
準備工作 315
處理流程 315
工作原理 316
更多內容 317
參考資料 317
用NumPy重寫函式 317
準備工作 317
處理流程 318
工作原理 320
用NumPy最佳化**內層循環 322
準備工作 322
處理流程 322
工作原理 324
更多內容 325
將汽車燃料效率數據導入R 27
準備工作 27
處理流程 27
工作原理 28
更多內容 29
參考資料 30
探索和描述燃料效率數據 30
準備工作 30
處理流程 30
工作原理 32
更多內容 33
進一步分析汽車燃料效率數據 34
準備工作 34
處理流程 34
工作原理 43
參考資料 44
研究汽車的產量以及車型 44
準備工作 44
處理流程 44
工作原理 46
更多內容 47
參考資料 47
第3章 模擬美式橄欖球比賽數據(R) 48
簡介 48
準備工作 49
獲取和清洗美式橄欖球比賽數據 49
準備工作 50
處理流程 50
工作原理 53
參考資料 53
分析和理解美式橄欖球比賽數據 53
準備工作 53
處理流程 53
工作原理 61
更多內容 61
參考資料 62
構建度量攻防能力的指標 62
準備工作 62
處理流程 62
工作原理 64
參考資料 65
模擬單場由程式決定勝負的比賽 65
準備工作 65
處理流程 65
工作原理 68
模擬多場由計算決定勝負的比賽 68
準備工作 68
處理流程 69
工作原理 73
更多內容 74
第4章 建模分析股票市場數據(R) 75
簡介 75
準備工作 76
獲取股票市場數據 76
處理流程 77
描述數據 78
準備工作 79
工作原理 80
更多內容 81
清洗和研究數據 82
準備工作 82
處理流程 82
工作原理 87
參考資料 87
形成相對估值法 87
準備工作 87
處理流程 88
工作原理 91
分析歷史價格篩選股票 92
準備工作 92
處理流程 92
工作原理 98
第5章 就業數據的可視化探索(R) 99
簡介 99
分析前的準備 100
準備工作 101
處理流程 101
工作原理 102
參考資料 102
將就業數據導入R 103
準備工作 103
處理流程 103
工作原理 104
更多內容 104
參考資料 105
就業數據探究 105
準備條件 105
處理流程 105
工作原理 107
參考資料 107
獲取和合併添加附加信息 107
準備工作 107
處理流程 108
工作原理 109
添加地理信息 110
準備工作 110
處理流程 110
工作原理 113
參考資料 114
獲取州和縣級水平的薪資和就業信息 114
準備工作 114
處理流程 114
工作原理 116
參考資料 117
可視化薪資的地理分布特性 117
準備工作 118
處理流程 118
工作原理 120
參考資料 121
探究各行業工作的地理分布情況 121
處理流程 122
工作原理 123
更多內容 124
參考資料 124
繪製地理空間的時間序列地圖 124
準備工作 124
處理流程 125
工作原理 128
更多內容 128
函式性能測試和比較 128
準備工作 129
處理流程 129
工作原理 131
更多內容 132
參考資料 132
第6章 運用稅務數據進行套用導向的數據分析(Python) 133
簡介 133
套用導向方法簡介 134
準備高收入數據集的分析 135
準備工作 135
處理流程 135
工作原理 136
導入並熟悉世界各國高收入數據集 136
準備工作 137
處理流程 137
工作原理 143
更多內容 144
參考資料 144
分析並可視化美國的高收入數據集 144
準備工作 144
處理流程 145
工作原理 151
進一步分析美國的高收入** 152
準備工作 152
處理流程 152
工作原理 156
用Jinja2匯報結果 157
準備工作 157
處理流程 157
工作原理 162
更多內容 162
參考資料 163
第7章 運用汽車數據進行可視化分析(Python) 164
簡介 164
IPython入門 165
準備工作 165
處理流程 165
工作原理 167
參考資料 167
熟悉IPython Notebook 167
準備工作 168
處理流程 168
工作原理 170
更多內容 170
參考資料 171
準備分析汽車油耗 171
準備工作 171
處理流程 171
工作原理 173
更多內容 173
參考資料 174
用Python熟悉並描述汽車油耗數據 174
準備工作 174
處理流程 174
工作原理 177
更多內容 177
參考資料 177
用Python分析汽車油耗隨時間變化趨勢 177
準備工作 177
處理流程 178
工作原理 183
更多內容 184
參考資料 185
用Python調查汽車的製造商和型號 185
準備工作 185
處理流程 185
工作原理 189
參考資料 189
第8章 社交網路分析(Python) 190
簡介 190
理解圖和網路 191
準備用Python進行社交網路的分析工作 192
準備工作 192
處理流程 193
工作原理 193
更多內容 193
導入網路 194
準備工作 194
處理流程 194
工作原理 196
探索英雄網路的子圖 196
準備工作 197
處理流程 197
工作原理 199
更多內容 199
找出強關聯 200
準備工作 201
處理流程 201
工作原理 203
更多內容 204
找出關鍵人物 204
準備工作 205
處理流程 205
工作原理 208
更多內容 209
調查全網的特徵 215
準備工作 216
處理流程 216
工作原理 217
社交網路中的聚類和發現社群 217
準備工作 217
處理流程 218
工作原理 221
更多內容 221
可視化圖 222
準備工作 222
處理流程 222
工作原理 224
第9章 大規模電影推薦(Python) 225
簡介 226
對偏好建模 227
處理流程 227
工作原理 228
理解數據 229
準備工作 229
處理流程 229
工作原理 231
更多內容 231
載入電影評分數據 231
準備工作 231
處理流程 232
工作原理 234
尋找高評分電影 235
準備工作 236
處理流程 236
工作原理 237
更多內容 238
參考資料 238
提升電影評分系統 238
準備工作 238
處理流程 238
工作原理 239
更多內容 240
參考資料 240
計算用戶在偏好空間中的距離 240
準備工作 241
處理流程 241
工作原理 243
更多內容 243
參考資料 243
計算用戶相關性 244
準備工作 244
處理流程 244
工作原理 245
更多內容 246
為特定用戶尋找**好的影評人 246
準備工作 246
處理流程 246
工作原理 247
預測用戶評分 249
準備工作 249
處理流程 249
工作原理 250
基於物品的協同過濾 251
準備工作 251
處理流程 252
工作原理 253
建立非負矩陣分解模型 254
處理流程 255
工作原理 255
參考資料 256
將數據集載入記憶體 256
準備工作 257
處理流程 257
工作原理 258
更多內容 258
導出SVD模型到硬碟 259
處理流程 259
工作原理 260
訓練SVD模型 261
處理流程 261
工作原理 262
更多內容 263
測試SVD模型 264
處理流程 264
工作原理 264
更多內容 264
第 10章 獲取和定位Twitter數據(Python) 266
簡介 266
創建Twitter套用 267
準備工作 268
處理流程 268
工作原理 271
參考資料 271
了解Twitter API v1.1 271
準備工作 272
處理流程 272
工作原理 273
更多內容 274
參考資料 275
獲取冬粉和朋友信息 275
準備工作 275
處理流程 275
工作原理 277
更多內容 277
參考資料 278
提取Twitter用戶檔案 278
準備工作 278
處理流程 278
工作原理 279
更多內容 279
參考資料 280
避免Twitter速度限制 280
準備工作 280
處理流程 280
工作原理 281
存儲JSON數據到硬碟 281
準備工作 282
處理流程 282
工作原理 282
安裝MongoDB 283
準備工作 283
處理流程 283
工作原理 284
更多內容 284
參考資料 285
利用PyMongo將用戶信息存入MongoDB 285
準備工作 285
處理流程 285
工作原理 286
探索用戶地理信息 287
準備工作 287
處理流程 287
工作原理 289
更多內容 290
參考資料 290
利用Python繪製地理分布圖 290
準備工作 290
處理流程 291
工作原理 292
更多內容 293
參考資料 294
第 11章 利用NumPy和SciPy最佳化數值計算(Python) 295
簡介 295
了解最佳化的步驟 297
處理流程 297
工作原理 297
更多內容 298
識別代碼中常見性能瓶頸 298
處理流程 299
工作原理 299
通讀代碼 301
準備工作 302
處理流程 302
工作原理 302
參考資料 304
利用Unix time函式剖析Python代碼 305
準備工作 305
處理流程 305
工作原理 306
參考資料 306
利用Python內建函式剖析Python代碼 306
準備工作 306
處理流程 306
工作原理 307
參考資料 308
利用IPython %timeit函式剖析Python代碼 308
處理流程 308
工作原理 309
利用line_profiler剖析Python代碼 309
準備工作 310
處理流程 310
工作原理 311
更多內容 312
參考資料 312
摘取低處的(經過最佳化的)果實 312
準備工作 312
處理流程 312
工作原理 314
測試NumPy帶來的性能提升 315
準備工作 315
處理流程 315
工作原理 316
更多內容 317
參考資料 317
用NumPy重寫函式 317
準備工作 317
處理流程 318
工作原理 320
用NumPy最佳化**內層循環 322
準備工作 322
處理流程 322
工作原理 324
更多內容 325

相關詞條

熱門詞條

聯絡我們