數據科學實用算法

數據科學實用算法

《數據科學實用算法》2019年11月清華大學出版社出版的圖書,作者是[美] 布賴恩·斯蒂爾(Brian Steele)、約翰·錢德勒(John Chandler)、斯瓦納·雷迪(Swarna Reddy)。

基本介紹

  • 中文名:數據科學實用算法
  • 作者:[美]布賴恩·斯蒂爾(Brian Steele)、約翰·錢德勒(John Chandler)、斯瓦納·雷迪(Swarna Reddy)
  • 出版社:清華大學出版社
  • 出版時間:2019年11月
  • 定價:98 元
  • ISBN:9787302531104
內容簡介,圖書目錄,

內容簡介

《數據科學實用算法》分為三部分。第I部分“數據約簡”首先討論數據約簡和數據映射等概念,然後講述關聯統計、可擴展算法和分散式計算等基礎知識。第II部分“從數據中提取信息”呈現線性回歸、數據可視化和聚類分析等主題,用一章的篇幅介紹醫療分析的關鍵領域。第III部分“預測分析”通過開發兩個基本且廣泛使用的預測函式(k近鄰和樸素貝葉斯)向讀者介紹預測分析技術,用一章的篇幅專門論述預報,最後一章重點介紹數據流。

圖書目錄

第I部分 數據約簡
第1 章 數據科學概述 3
1.1 什麼是數據科學? 3
1.2 美國的糖尿病數據 5
1.3 《聯邦黨人文集》的作者數據 6
1.4 預測納斯達克股價 8
1.5 述評 9
1.6 關於本書 10
1.7 算法 12
1.8 Python語言 13
1.9 R語言 13
1.10 術語和符號 14
1.11 本書網站 16
第2 章 數據映射和數據字典 17
2.1 數據約簡 17
2.2 政治捐款 18
2.3 字典 19
2.4 教程:大金主 20
2.5 數據約簡 24
2.5.1 符號和術語 24
2.5.2 政治捐款示例 25
2.5.3 映射 26
2.6 教程:選舉周期捐款 27
2.7 相似度度量 33
2.8 教程:計算相似度 37
2.9 關於字典的總結性述評 41
2.10 練習 41
2.10.1 概念練習 41
2.10.2 計算練習 42
第3 章 可擴展算法和聯合統計 45
3.1 引言 45
3.2 示例:美國的肥胖症數據 46
3.3 關聯統計數據 47
3.4 單變數觀測 48
3.4.1 直方圖 50
3.4.2 直方圖的構建 51
3.5 函式 52
3.6 教程:直方圖的構建 53
3.7 多變數灑煉匪喇數據 65
3.7.1 符號和術語 65
3.7.2 估計量 66
3.7.3 增廣“矩”矩陣 69
3.7.4 述評 70
3.8 教程:計算相關矩陣 70
3.9 線性回歸簡介 77
3.9.2 β的估計值 78
3.9.3 準確性評估 81
3.9.4 計算 82
3.10 教程:計算 83
3.11 練習 89
3.11.1 概念練習 89
3.12.2 計算練習 90
第4 章 Hadoop和MapReduce 93
4.1 引言 93
4.2 Hadoop生態系統 94
4.2.1 Hadoop分散式檔案系統 94
4.2.2 MapReduce 95
4.2.3 映射 96
4.2.4 約簡 97
4.3 開發Hadoop套用去漿承程式 98
4.4 醫療保險支付 98
4.5 命令行環境 99
4.6 教程:編程實現MapReduce算法 100
4.6.1 映射器 102
4.6.2 約簡器 105
4.6.3 概要 108
4.7 教程:使用亞馬遜網路服務 109
4.8 練習 113
4.8.1 概念練習 113
4.8.2 計算練習 113
第II部分 從數據中提取信息
第5 章 數據可視化 117
5.1 引言 117
5.2 數據可視化的原則 118
5.3 做出正確選擇 121
5.3.1 單變數數據 122
5.3.2 雙凳喇變數和多變數數據 125
5.4 利用舉蜜歡應好這台機器 132
5.4.1 繪製圖5.2 134
5.4.2 繪項去微製圖5.3 135
5.4.3 繪製圖5.4 136
5.4.4 繪製圖5.5 136
5.4.5 繪製圖5.8 138
5.4.6 繪製圖府舟龍5.10 139
5.4.7 繪製圖5.11 140
5.5 練習 141
第6 章 線性回歸方法 143
6.1 引言 143
6.2.1 示例:抑鬱症、宿命論和簡單化 145
6.2.2 最小二乘法 147
6.2.3 置信區間 149
6.2.4 分布條件 150
6.2.5 假設檢驗 151
6.2.6 警示語 154
6.3 R語言簡介估愚疊 155
6.4 教程:R語言 156
6.5 教程:大數據集和R語言 159
6.6 因子 164
6.6.1 互動 166
6.6.2 擴展平方和F檢驗 168
6.7 教程:共享腳踏車 171
6.8 殘差分析 175
6.8.1 線性 176
6.8.2 示例:共享腳踏車問題 177
6.8.3 獨立性 179
6.9 教程:殘差分析 182
6.10 練習 185
6.10.1 概念練習 185
6.10.2 計算練習 185
第7 章 醫療分析 189
7.1 引言 189
7.2 行為風險因素監測系統 190
7.2.1 患病率的估計 192
7.2.2 發病率的估計 193
7.3 教程:糖尿病的患病率和發病率 194
7.4 預測具有患病風險的個人 203
7.5 教程:確認具有患病風險的個體 208
7.6 非尋常的人口特徵 213
7.7 教程:構建近鄰集合 215
7.8 練習 219
7.8.1 概念練習 219
7.8.2 計算練習 220
第8 章 聚類分析 223
8.1 引言 223
8.2 凝聚層次聚類 224
8.3 各州間的對比 225
8.4 教程:各州的層次聚類 228
8.5 k均值算法 235
8.6 教程:k均值算法 236
8.7 練習 242
8.7.1 概念練習 242
8.7.2 計算練習 242
第III部分 預測分析
第9 章 k近鄰預測函式 247
9.1 引言 247
9.2 符號和術語 249
9.3 距離度量 251
9.4 k近鄰預測函式 252
9.5 指數加權k近鄰 253
9.6 教程:數字識別 255
9.7 準確性估計 262
9.8 k近鄰回歸 264
9.9 預測標準普爾500指數 265
9.10 教程:利用模式回歸進行預測 266
9.11 交叉驗證 273
9.12 練習 275
9.12.1 概念練習 275
9.12.2 計算練習 275
第10 章 多項式樸素貝葉斯預測函式 279
10.1 引言 279
10.2 聯邦黨人文集 280
10.3 多項式樸素貝葉斯預測函式 281
10.4 教程:約簡《聯邦黨人文集》 285
10.5 教程:預測有爭議的《聯邦黨人文集》的作者 291
10.6 教程:客戶細分 294
10.6.1 加法平滑 295
10.6.2 數據 296
10.6.3 述評 303
10.7 練習 303
10.7.1 概念練習 303
10.7.2 計算練習 304
第11 章 預報 307
11.1 引言 307
11.2 教程:處理時間 309
11.3 分析方法 313
11.3.1 符號 313
11.3.2 均值和方差的估計 313
11.3.3 指數預報 315
11.3.4 自相關 316
11.4 教程:計算 318
11.5 漂移和預報 322
11.6 Holt-Winters指數型預報 323
11.7 教程:Holt-Winters預報 326
11.8 基於回歸的股價預報 330
11.9 教程:基於回歸的預報 331
11.10 時變回歸預報器 336
11.11 教程:時變回歸預報器 337
11.12 練習 339
11.12.1 概念練習 339
11.12.2 計算練習 339
第12 章 實時分析 343
12.1 引言 343
12.2 用納斯達克報價數據流進行預報 344
12.3 教程:預報Apple公司信息流 346
12.4 Twitter信息流API 351
12.5 教程:訪問Twitter數據流 352
12.6 情感分析 357
12.7 教程:主題標籤分組的情感分析 358
12.8 練習 360
附錄 A 練習答案 363
附錄 B 使用Twitter API 377
參考文獻 379
3.12.2 計算練習 90
第4 章 Hadoop和MapReduce 93
4.1 引言 93
4.2 Hadoop生態系統 94
4.2.1 Hadoop分散式檔案系統 94
4.2.2 MapReduce 95
4.2.3 映射 96
4.2.4 約簡 97
4.3 開發Hadoop應用程式 98
4.4 醫療保險支付 98
4.5 命令行環境 99
4.6 教程:編程實現MapReduce算法 100
4.6.1 映射器 102
4.6.2 約簡器 105
4.6.3 概要 108
4.7 教程:使用亞馬遜網路服務 109
4.8 練習 113
4.8.1 概念練習 113
4.8.2 計算練習 113
第II部分 從數據中提取信息
第5 章 數據可視化 117
5.1 引言 117
5.2 數據可視化的原則 118
5.3 做出正確選擇 121
5.3.1 單變數數據 122
5.3.2 雙變數和多變數數據 125
5.4 利用好這台機器 132
5.4.1 繪製圖5.2 134
5.4.2 繪製圖5.3 135
5.4.3 繪製圖5.4 136
5.4.4 繪製圖5.5 136
5.4.5 繪製圖5.8 138
5.4.6 繪製圖5.10 139
5.4.7 繪製圖5.11 140
5.5 練習 141
第6 章 線性回歸方法 143
6.1 引言 143
6.2.1 示例:抑鬱症、宿命論和簡單化 145
6.2.2 最小二乘法 147
6.2.3 置信區間 149
6.2.4 分布條件 150
6.2.5 假設檢驗 151
6.2.6 警示語 154
6.3 R語言簡介 155
6.4 教程:R語言 156
6.5 教程:大數據集和R語言 159
6.6 因子 164
6.6.1 互動 166
6.6.2 擴展平方和F檢驗 168
6.7 教程:共享腳踏車 171
6.8 殘差分析 175
6.8.1 線性 176
6.8.2 示例:共享腳踏車問題 177
6.8.3 獨立性 179
6.9 教程:殘差分析 182
6.10 練習 185
6.10.1 概念練習 185
6.10.2 計算練習 185
第7 章 醫療分析 189
7.1 引言 189
7.2 行為風險因素監測系統 190
7.2.1 患病率的估計 192
7.2.2 發病率的估計 193
7.3 教程:糖尿病的患病率和發病率 194
7.4 預測具有患病風險的個人 203
7.5 教程:確認具有患病風險的個體 208
7.6 非尋常的人口特徵 213
7.7 教程:構建近鄰集合 215
7.8 練習 219
7.8.1 概念練習 219
7.8.2 計算練習 220
第8 章 聚類分析 223
8.1 引言 223
8.2 凝聚層次聚類 224
8.3 各州間的對比 225
8.4 教程:各州的層次聚類 228
8.5 k均值算法 235
8.6 教程:k均值算法 236
8.7 練習 242
8.7.1 概念練習 242
8.7.2 計算練習 242
第III部分 預測分析
第9 章 k近鄰預測函式 247
9.1 引言 247
9.2 符號和術語 249
9.3 距離度量 251
9.4 k近鄰預測函式 252
9.5 指數加權k近鄰 253
9.6 教程:數字識別 255
9.7 準確性估計 262
9.8 k近鄰回歸 264
9.9 預測標準普爾500指數 265
9.10 教程:利用模式回歸進行預測 266
9.11 交叉驗證 273
9.12 練習 275
9.12.1 概念練習 275
9.12.2 計算練習 275
第10 章 多項式樸素貝葉斯預測函式 279
10.1 引言 279
10.2 聯邦黨人文集 280
10.3 多項式樸素貝葉斯預測函式 281
10.4 教程:約簡《聯邦黨人文集》 285
10.5 教程:預測有爭議的《聯邦黨人文集》的作者 291
10.6 教程:客戶細分 294
10.6.1 加法平滑 295
10.6.2 數據 296
10.6.3 述評 303
10.7 練習 303
10.7.1 概念練習 303
10.7.2 計算練習 304
第11 章 預報 307
11.1 引言 307
11.2 教程:處理時間 309
11.3 分析方法 313
11.3.1 符號 313
11.3.2 均值和方差的估計 313
11.3.3 指數預報 315
11.3.4 自相關 316
11.4 教程:計算 318
11.5 漂移和預報 322
11.6 Holt-Winters指數型預報 323
11.7 教程:Holt-Winters預報 326
11.8 基於回歸的股價預報 330
11.9 教程:基於回歸的預報 331
11.10 時變回歸預報器 336
11.11 教程:時變回歸預報器 337
11.12 練習 339
11.12.1 概念練習 339
11.12.2 計算練習 339
第12 章 實時分析 343
12.1 引言 343
12.2 用納斯達克報價數據流進行預報 344
12.3 教程:預報Apple公司信息流 346
12.4 Twitter信息流API 351
12.5 教程:訪問Twitter數據流 352
12.6 情感分析 357
12.7 教程:主題標籤分組的情感分析 358
12.8 練習 360
附錄 A 練習答案 363
附錄 B 使用Twitter API 377
參考文獻 379
check!

熱門詞條

聯絡我們