面向數據科學家的實用統計學

面向數據科學家的實用統計學

《面向數據科學家的實用統計學》是2020年4月人民郵電出版社出版的圖書,作者是[美]彼得·布魯斯(Peter Bruce)、安德魯·布魯斯。

基本介紹

  • 書名:面向數據科學家的實用統計學
  • 作者:[美]彼得·布魯斯(Peter Bruce)
    安德魯·布魯斯
  • ISBN:9787115493668
  • 頁數:220頁
  • 定價:89元
  • 出版社:人民郵電出版社
  • 出版時間:2020年4月
  • 裝幀:平裝
  • 開本:16開
內容簡介,圖書目錄,

內容簡介

本書解釋了數據科學中至關重要的統計學概念,介紹如何將各種統計方法套用於數據科學。作者以易於理解、瀏覽和參考的方式,引出統計學中與數據科學相關的關鍵概念;解釋各統計學概念在數據科學影想頁碑中的重要性及有用程度,並給出原因。

圖書目錄

前言  xiii
第 1 章 探索性數據分析 1
1.1 結構化數據的組成 2
1.2 矩形數據 4
1.2.1 數據框和索引 5
1.2.2 非矩形數據結構 5
1.2.3 拓展閱讀 6
1.3 位置估計 6
1.3.1 均值 7
1.3.2 中位數和穩健估計量 8
1.3.3 位置估計的例子:人口和謀殺率 9
1.3.4 拓展閱讀 10
1.4 變異性估計 10
1.4.1 標準偏差及相關估計值 11
1.4.2 基於百分位數的估計量 13
1.4.3 例子:美國各州人口的變異性估計量 14
1.4.4 拓展閱讀 14
1.5 探索數據分布 14
1.5.1 百分位數和箱線圖 15
1.5.2 頻數表和直方圖 16
1.5.3 密度估計 18
1.5.4 拓展閱讀 20
1.6 探索二元數據和分類數據 20
1.6.1 眾數 21
1.6.2 期望值 22
1.6.3 拓展閱讀 22
1.7 相關性 22
1.7.1 散點圖 25
1.7.2 拓展閱讀 26
1.8 探索兩個及以上變數 26
1.8.1 六邊形圖和等勢線鞏嫌甩鑽(適用於兩個數值型變欠付船量) 26
1.8.2 兩個分類變數 28
1.8.3 分類數據和數值型數據 29
1.8.4 多個變數的可視化 31
1.8.5 拓展閱讀 33
1.9 小結 33
第 2 章 數據和抽樣分布 34
2.1 隨機抽樣和樣本偏差 35
2.1.1 偏差 36
2.1.2 隨機選擇 37
2.1.3 數據規模與數據質量:何時規模更重要 38
2.1.4 樣本均值與總體均值 38
2.1.5 拓展閱讀 39
2.2 選擇偏差 39
2.2.1 趨均值回歸 40
2.2.2 拓展閱讀 41
2.3 統計量的抽樣分布 42
2.3.1 中心極限定理 44
2.3.2 標準誤差 44
2.3.3 拓展閱讀 45
2.4 自助法 45
2.4.1 重抽樣與自助法 47
2.4.2 拓展閱讀 48
2.5 置信區間 48
2.6 常態分配 50
2.7 長尾分布 53
2.8 學生t 分布 55
2.9 二項分布 57
2.10 泊松分布及其相關分布 58
2.10.1 泊松分布 59
2.10.2 指數分布 59
2.10.3 故膠市障率估計 60
2.10.4 韋伯分布 60
2.10.5 拓展閱讀 61
2.11 小結 61
第3 章 統計實驗與顯著性檢驗 62
3.1 A/B 測試 62
3.1.1 為什麼要有對照組 64
3.1.2 為什麼只有處理A 和B,沒有C、D…… 65
3.1.3 拓展閱讀 66
3.2 假設檢驗 66
3.2.1 零假設 67
3.2.2 備擇假設 67
3.2.3 單向假設檢驗和雙向假設檢驗 68
3.2.4 拓展閱讀 68
3.3 重抽樣 68
3.3.1 置換檢驗 69
3.3.2 例子:Web 黏性 69
3.3.3 窮盡置換檢驗和自助置換檢驗 嚷采頌72
3.3.4 置換檢驗:數據科學的底線 72
3.3.5 拓展閱讀 72
3.4 統計顯著性和p 值 72
3.4.1 p 值 74
3.4.2 α 值 75
3.4.3 第 一類錯誤和第二類錯誤 76
3.4.4 數據科學與p 值 76
3.4.5 拓展閱讀 77
3.5 t 檢驗 77
3.6 多重檢驗 78
3.7 自由度 81
3.8 方差分析 82
3.8.1 F 統計量 84
3.8.2 雙向方差分析 85
3.8.3 拓展閱讀 86
3.9 卡方檢驗 86
3.9.1 卡方妹辯想檢驗:一種重抽樣方法 86
3.9.2 卡方檢驗:統計理論 88
3.9.3 費舍爾精確檢驗 88
3.9.4 與數據科學的關聯 90
3.9.5 拓展閱讀 91
3.10 多臂老虎機算法 91
3.11 檢驗效能和樣本規模 93
3.11.1 樣本規模 95
3.11.2 拓展閱讀 96
3.12 小結 96
第4 章 回歸與預測 紙主盛97
4.1 簡單線性回歸 97
4.1.1 回歸方程 98
4.1.2 擬合值與殘差 100
4.1.3 最小二乘法 101
4.1.4 預測與解釋(剖析) 102
4.1.5 拓展閱讀 103
4.2 多元線性回歸 103
4.2.1 美國金縣房屋數據案例 103
4.2.2 評估模型 104
4.2.3 交叉驗證 106
4.2.4 模型選擇和逐步回歸法 107
4.2.5 加權回歸 108
4.3 使用回歸做預測 109
4.3.1 外推法的風險 109
4.3.2 置信區間和預測區間 110
4.4 回歸中的因子變數 111
4.4.1 虛擬變數的表示 112
4.4.2 多層因子變數 113
4.4.3 有序因子變數 114
4.5 解釋回歸方程 115
4.5.1 相關的預測變數 116
4.5.2 多重共線性 117
4.5.3 混淆變數 117
4.5.4 互動作用和主效應 118
4.6 檢驗假設:回歸診斷 119
4.6.1 離群值 120
4.6.2 強影響值 121
4.6.3 異方差性、非常態分配和相關誤差 123
4.6.4 偏殘差圖和非線性 126
4.7 多項式回歸和樣條回歸 127
4.7.1 多項式回歸 128
4.7.2 樣條回歸 129
4.7.3 廣義加性模型 131
4.7.4 拓展閱讀 132
4.8 小結 133
第5 章 分類 134
5.1 樸素貝葉斯算法 135
5.1.1 準確的貝葉斯分類是不切實際的 136
5.1.2 樸素解決方案 136
5.1.3 數值型預測變數 138
5.1.4 拓展閱讀 138
5.2 判別分析 138
5.2.1 協方差矩陣 139
5.2.2 費希爾線性判別分析 139
5.2.3 一個簡單的例子 140
5.2.4 拓展閱讀 142
5.3 邏輯回歸 142
5.3.1 邏輯回響函式和Logit 函式 143
5.3.2 邏輯回歸和廣義線性模型 144
5.3.3 廣義線性模型 145
5.3.4 邏輯回歸的預測值 145
5.3.5 解釋係數和優勢比 146
5.3.6 線性回歸與邏輯回歸:相似之處和不同之處 147
5.3.7 模型評估 148
5.3.8 拓展閱讀 150
5.4 評估分類模型 150
5.4.1 混淆矩陣 151
5.4.2 稀有類問題 152
5.4.3 準確率、召回率和特異性 153
5.4.4 ROC 曲線 153
5.4.5 AUC 155
5.4.6 提升 156
5.4.7 拓展閱讀 157
5.5 不平衡數據的處理策略 157
5.5.1 欠採樣 158
5.5.2 過採樣以及上權重和下權重 158
5.5.3 數據生成 159
5.5.4 基於代價的分類 160
5.5.5 探索預測值 160
5.5.6 拓展閱讀 161
5.6 小結 161
第6 章 統計機器學習 162
6.1 K 最近鄰算法 163
6.1.1 預測貸款拖欠的示例 164
6.1.2 距離度量 165
6.1.3 獨熱編碼 166
6.1.4 標準化 166
6.1.5 K 值的選取 168
6.1.6 KNN 作為特徵引擎 169
6.2 樹模型 170
6.2.1 一個簡單的例子 171
6.2.2 遞歸分區算法 172
6.2.3 測量同質性或不純度 174
6.2.4 阻止樹模型繼續生長 175
6.2.5 預測連續值 176
6.2.6 如何使用樹模型 176
6.2.7 拓展閱讀 177
6.3 Bagging 和隨機森林 177
6.3.1 Bagging 方法 178
6.3.2 隨機森林 178
6.3.3 變數的重要性 181
6.3.4 超參數 183
6.4 Boosting 184
6.4.1 Boosting 算法 184
6.4.2 XGBoost 軟體 185
6.4.3 正則化:避免過擬合 186
6.4.4 超參數和交叉驗證 189
6.5 小結 191
第7 章 無監督學習 192
7.1 主成分分析 193
7.1.1 一個簡單的例子 194
7.1.2 計算主成分 195
7.1.3 解釋主成分 196
7.1.4 拓展閱讀 198
7.2 K-Means 聚類 198
7.2.1 一個簡單的例子 199
7.2.2 K-Means 算法 201
7.2.3 解釋類 201
7.2.4 選擇類的個數 203
7.3 層次聚類 204
7.3.1 一個簡單的例子 205
7.3.2 樹狀圖 205
7.3.3 凝聚算法 206
7.3.4 測量相異性 207
7.4 基於模型的聚類 208
7.4.1 多元常態分配 209
7.4.2 混合常態分配 210
7.4.3 類數的選取 212
7.4.4 拓展閱讀 213
7.5 變數的縮放和分類變數 213
7.5.1 變數的縮放 214
7.5.2 控制變數 215
7.5.3 分類數據和高氏距離 216
7.5.4 混合數據的聚類問題 218
7.6 小結 219
作者簡介 220
封面說明 220
2.10.3 故障率估計 60
2.10.4 韋伯分布 60
2.10.5 拓展閱讀 61
2.11 小結 61
第3 章 統計實驗與顯著性檢驗 62
3.1 A/B 測試 62
3.1.1 為什麼要有對照組 64
3.1.2 為什麼只有處理A 和B,沒有C、D…… 65
3.1.3 拓展閱讀 66
3.2 假設檢驗 66
3.2.1 零假設 67
3.2.2 備擇假設 67
3.2.3 單向假設檢驗和雙向假設檢驗 68
3.2.4 拓展閱讀 68
3.3 重抽樣 68
3.3.1 置換檢驗 69
3.3.2 例子:Web 黏性 69
3.3.3 窮盡置換檢驗和自助置換檢驗 72
3.3.4 置換檢驗:數據科學的底線 72
3.3.5 拓展閱讀 72
3.4 統計顯著性和p 值 72
3.4.1 p 值 74
3.4.2 α 值 75
3.4.3 第 一類錯誤和第二類錯誤 76
3.4.4 數據科學與p 值 76
3.4.5 拓展閱讀 77
3.5 t 檢驗 77
3.6 多重檢驗 78
3.7 自由度 81
3.8 方差分析 82
3.8.1 F 統計量 84
3.8.2 雙向方差分析 85
3.8.3 拓展閱讀 86
3.9 卡方檢驗 86
3.9.1 卡方檢驗:一種重抽樣方法 86
3.9.2 卡方檢驗:統計理論 88
3.9.3 費舍爾精確檢驗 88
3.9.4 與數據科學的關聯 90
3.9.5 拓展閱讀 91
3.10 多臂老虎機算法 91
3.11 檢驗效能和樣本規模 93
3.11.1 樣本規模 95
3.11.2 拓展閱讀 96
3.12 小結 96
第4 章 回歸與預測 97
4.1 簡單線性回歸 97
4.1.1 回歸方程 98
4.1.2 擬合值與殘差 100
4.1.3 最小二乘法 101
4.1.4 預測與解釋(剖析) 102
4.1.5 拓展閱讀 103
4.2 多元線性回歸 103
4.2.1 美國金縣房屋數據案例 103
4.2.2 評估模型 104
4.2.3 交叉驗證 106
4.2.4 模型選擇和逐步回歸法 107
4.2.5 加權回歸 108
4.3 使用回歸做預測 109
4.3.1 外推法的風險 109
4.3.2 置信區間和預測區間 110
4.4 回歸中的因子變數 111
4.4.1 虛擬變數的表示 112
4.4.2 多層因子變數 113
4.4.3 有序因子變數 114
4.5 解釋回歸方程 115
4.5.1 相關的預測變數 116
4.5.2 多重共線性 117
4.5.3 混淆變數 117
4.5.4 互動作用和主效應 118
4.6 檢驗假設:回歸診斷 119
4.6.1 離群值 120
4.6.2 強影響值 121
4.6.3 異方差性、非常態分配和相關誤差 123
4.6.4 偏殘差圖和非線性 126
4.7 多項式回歸和樣條回歸 127
4.7.1 多項式回歸 128
4.7.2 樣條回歸 129
4.7.3 廣義加性模型 131
4.7.4 拓展閱讀 132
4.8 小結 133
第5 章 分類 134
5.1 樸素貝葉斯算法 135
5.1.1 準確的貝葉斯分類是不切實際的 136
5.1.2 樸素解決方案 136
5.1.3 數值型預測變數 138
5.1.4 拓展閱讀 138
5.2 判別分析 138
5.2.1 協方差矩陣 139
5.2.2 費希爾線性判別分析 139
5.2.3 一個簡單的例子 140
5.2.4 拓展閱讀 142
5.3 邏輯回歸 142
5.3.1 邏輯回響函式和Logit 函式 143
5.3.2 邏輯回歸和廣義線性模型 144
5.3.3 廣義線性模型 145
5.3.4 邏輯回歸的預測值 145
5.3.5 解釋係數和優勢比 146
5.3.6 線性回歸與邏輯回歸:相似之處和不同之處 147
5.3.7 模型評估 148
5.3.8 拓展閱讀 150
5.4 評估分類模型 150
5.4.1 混淆矩陣 151
5.4.2 稀有類問題 152
5.4.3 準確率、召回率和特異性 153
5.4.4 ROC 曲線 153
5.4.5 AUC 155
5.4.6 提升 156
5.4.7 拓展閱讀 157
5.5 不平衡數據的處理策略 157
5.5.1 欠採樣 158
5.5.2 過採樣以及上權重和下權重 158
5.5.3 數據生成 159
5.5.4 基於代價的分類 160
5.5.5 探索預測值 160
5.5.6 拓展閱讀 161
5.6 小結 161
第6 章 統計機器學習 162
6.1 K 最近鄰算法 163
6.1.1 預測貸款拖欠的示例 164
6.1.2 距離度量 165
6.1.3 獨熱編碼 166
6.1.4 標準化 166
6.1.5 K 值的選取 168
6.1.6 KNN 作為特徵引擎 169
6.2 樹模型 170
6.2.1 一個簡單的例子 171
6.2.2 遞歸分區算法 172
6.2.3 測量同質性或不純度 174
6.2.4 阻止樹模型繼續生長 175
6.2.5 預測連續值 176
6.2.6 如何使用樹模型 176
6.2.7 拓展閱讀 177
6.3 Bagging 和隨機森林 177
6.3.1 Bagging 方法 178
6.3.2 隨機森林 178
6.3.3 變數的重要性 181
6.3.4 超參數 183
6.4 Boosting 184
6.4.1 Boosting 算法 184
6.4.2 XGBoost 軟體 185
6.4.3 正則化:避免過擬合 186
6.4.4 超參數和交叉驗證 189
6.5 小結 191
第7 章 無監督學習 192
7.1 主成分分析 193
7.1.1 一個簡單的例子 194
7.1.2 計算主成分 195
7.1.3 解釋主成分 196
7.1.4 拓展閱讀 198
7.2 K-Means 聚類 198
7.2.1 一個簡單的例子 199
7.2.2 K-Means 算法 201
7.2.3 解釋類 201
7.2.4 選擇類的個數 203
7.3 層次聚類 204
7.3.1 一個簡單的例子 205
7.3.2 樹狀圖 205
7.3.3 凝聚算法 206
7.3.4 測量相異性 207
7.4 基於模型的聚類 208
7.4.1 多元常態分配 209
7.4.2 混合常態分配 210
7.4.3 類數的選取 212
7.4.4 拓展閱讀 213
7.5 變數的縮放和分類變數 213
7.5.1 變數的縮放 214
7.5.2 控制變數 215
7.5.3 分類數據和高氏距離 216
7.5.4 混合數據的聚類問題 218
7.6 小結 219
作者簡介 220
封面說明 220

相關詞條

熱門詞條

聯絡我們