《Python數據分析基礎》是2017年中國統計出版社出版的一本書籍,書籍的作者是阮敬。
內容簡介,圖書目錄,
內容簡介
本書通過真實案例,全面介紹python編程基礎和數據分析工具的套用,並培養讀者通過數據分析問題、解決問題以及對結果評價的能力。全書內容包括:python基本配置和編程基礎、數據預處理、數據描述與可視化、統計推斷、相關分析、關聯分析、回歸分析、主成分和因子分析、聚類、判別與分類、列聯分析、對應分析、定性數據分析、時間序列分析等,將讀者關注的數據分析與數據挖掘技術進行剖析。
圖書目錄
第1章Python編程基礎 1
1.1Python系統配置 1
1.2Python基礎知識 5
1.2.1幫助 6
1.2.2標識符 6
1.2.3行與縮進 7
1.2.4變數與對象 7
1.2.5數字與表達式 9
1.2.6運算符 10
1.2.7字元串 11
1.2.7.1轉義字元 11
1.2.7.2字元串格式化 12
1.2.7.3字元串的內置方法 13
1.2.8日期和時間 17
1.3數據結構與序列 18
1.3.1列表 19
1.3.1.1列表索引和切片 19
1.3.1.2列表操作 20
1.3.1.3內置列表函式 20
1.3.1.4列表方法 21
1.3.2元組 22
1.3.3字典 23
1.3.4集合 24
1.3.5推導式 26
1.4語句與控制流 27
1.4.1條件語句 27
1.4.2循環語句 28
1.4.2.1while循環 28
1.4.2.2for循環 29
1.4.2.3循環控制 30
1.5函式 30
1.5.1函式的參數 32
1.5.2全局變數與局部變數 32
1.5.3匿名函式 33
1.5.4遞歸和閉包 33
1.5.5柯里化與反柯里化 35
1.5.6常用的內置函式 36
1.5.6.1filter函式 36
1.5.6.2map函式 36
1.5.6.3reduce函式 37
1.6疊代器、生成器和裝飾器 37
1.6.1疊代器 37
1.6.2生成器 38
1.6.3裝飾器 40
1.7類 42
1.7.1聲明類 42
1.7.2方法 44
1.7.2.1實例方法 44
1.7.2.2類方法 45
1.7.2.3靜態方法 46
1.7.3屬性 47
1.7.3.1實例屬性和類屬性 47
1.7.3.2私有屬性和公有屬性 48
1.7.4繼承 49
1.7.4.1隱式繼承 49
1.7.4.2顯式覆蓋 50
1.7.4.3super繼承 51
1.7.4.4多態 52
1.7.4.5多重繼承 54
1.8模組 54
1.9包 55
1.10檔案I/O 55
第2章數據預處理 59
2.1numpy基礎 59
2.1.1向量 61
2.1.2數組 62
2.1.2.1數據類型與結構數組 63
2.1.2.2索引與切片 64
2.1.2.3數組的屬性 68
2.1.2.4數組排序 69
2.1.2.5數組維度 70
2.1.2.6數組組合 72
2.1.2.7數組分拆 75
2.1.2.8ufunc運算 76
2.1.3矩陣 81
2.1.4檔案讀寫 81
2.2pandas基礎 82
2.2.1pandas的數據結構 83
2.2.1.1Series 83
2.2.1.2DataFrame 87
2.2.2pandas的數據操作 96
2.2.2.1排序 96
2.2.2.2排名 98
2.2.2.3運算 100
2.2.2.4函式套用與映射 101
2.2.2.5分組 102
2.2.2.6合併 103
2.2.2.7分類數據 106
2.2.2.8時間序列 107
2.2.2.9缺失值處理 116
第3章數據描述 122
3.1統計量 122
3.1.1集中趨勢 122
3.1.1.1均值 123
3.1.1.2中位數 124
3.1.1.3分位數 125
3.1.1.4眾數 125
3.1.2離散程度 126
3.1.2.1極差 126
3.1.2.2四分位差 127
3.1.2.3方差和標準差 127
3.1.2.4協方差 128
3.1.2.5變異係數 128
3.1.3分布形狀 128
3.1.3.1偏度 129
3.1.3.2峰度 129
3.2統計表 130
3.2.1統計表的基本要素 130
3.2.2統計表的編制 131
第4章統計圖形與可視化 135
4.1matplotlib基本繪圖 135
4.1.1函式繪圖 135
4.1.2圖形基本設定 140
4.1.2.1創建圖例 140
4.1.2.2刻度設定 141
4.1.2.3圖像註解 142
4.1.2.4圖像大小 143
4.1.2.5創建子圖 144
4.1.2.6其他繪圖函式 145
4.1.3面向對象繪圖 146
4.1.4繪圖樣式 148
4.2pandas基本繪圖 148
4.3基本統計圖形 150
4.3.1折線圖 150
4.3.2面積圖 153
4.3.3直方圖 153
4.3.4條形圖 155
4.3.5龍捲風圖 158
4.3.6餅圖 159
4.3.7階梯圖 160
4.3.8盒須圖 161
4.3.9小提琴圖 163
4.3.10散點圖 164
4.3.11氣泡圖 166
4.3.12六邊形箱圖 167
4.3.13雷達坐標圖 168
4.3.14輪廓圖 169
4.3.15調和曲線圖 169
4.3.16等高線圖 170
4.3.17極坐標圖 170
4.3.18詞雲圖 171
4.3.19數據地圖 174
4.4其他繪圖工具 176
第5章簡單統計推斷 178
5.1常用數據分析工具庫 178
5.1.1scipy 178
5.1.2statsmodels 179
5.1.3sklearn 180
5.2簡單統計推斷的基本原理 180
5.2.1數據分布 180
5.2.1.1總體分布 181
5.2.1.2樣本分布 181
5.2.1.3抽樣分布 181
5.2.2參數估計 183
5.2.2.1點估計 184
5.2.2.2區間估計 184
5.2.3假設檢驗 185
5.2.3.1假設檢驗的基本思想 185
5.2.3.2假設檢驗基本步驟 186
5.2.3.3假設檢驗中總體的幾種不同情況 187
5.3單總體參數的估計及假設檢驗 189
5.3.1單總體的參數估計 189
5.3.1.1單總體均值的參數估計 189
5.3.1.2單總體方差、標準差的參數估計 190
5.3.1.3單總體比例的參數估計 191
5.3.2單總體參數的假設檢驗 191
5.3.2.1總體均值的假設檢驗 191
5.3.2.2總體比例的假設檢驗 194
5.4兩總體參數的假設檢驗 194
5.4.1獨立樣本的假設檢驗 195
5.4.1.1獨立樣本均值之差的假設檢驗 195
5.4.1.2獨立樣本比例之差的假設檢驗 197
5.4.2成對樣本的假設檢驗 198
第6章方差分析 201
6.1方差分析的基本原理 201
6.2一元方差分析 205
6.2.1一元單因素方差分析 205
6.2.1.1方差同質性檢驗 206
6.2.1.2方差來源分解及檢驗過程 206
6.2.1.3多重比較檢驗 207
6.2.1.4方差分析模型的參數估計和預測 208
6.2.1.5方差分析模型的預測 210
6.2.2一元多因素方差分析 210
6.2.2.1隻考慮主效應的多因素方差分析 211
6.2.2.2存在互動效應的多因素方差分析 215
6.3協方差分析 217
第7章非參數檢驗 220
7.1非參數檢驗的基本問題 220
7.2單樣本非參數檢驗 221
7.2.1中位數(均值)的檢驗 221
7.2.2分布的檢驗 223
7.2.3遊程檢驗 224
7.3兩個樣本的非參數檢驗 225
7.3.1獨立樣本中位數比較的Wilcoxon秩和檢驗 225
7.3.2獨立樣本的分布檢驗 227
7.3.3成對(匹配)樣本中位數的檢驗 228
7.3.4兩樣本的遊程檢驗 228
7.4多個樣本的非參數檢驗 229
7.4.1多個樣本的分布檢驗 229
7.4.2獨立樣本位置的檢驗 230
第8章相關分析與關聯分析 233
8.1相關分析 233
8.1.1函式關係與相關關係 233
8.1.2簡單相關分析 234
8.1.2.1用圖形描述相關關係 234
8.1.2.2用相關係數測度相關關係 235
8.1.2.3相關係數的顯著性檢驗 236
8.1.3偏相關分析 238
8.1.4點二列相關分析 239
8.1.5非參數相關分析 240
8.1.5.1Spearman相關係數 240
8.1.5.2Kendalltau-b係數 241
8.1.5.3Hoeffding’sD係數 241
8.2關聯分析 243
8.2.1基本概念與數據預處理 243
8.2.2Apriori算法 245
8.2.3FP-growth算法 249
第9章回歸分析 251
9.1線性回歸 251
9.1.1回歸分析的基本原理 251
9.1.1.1參數估計的普通最小二乘法 253
9.1.1.2回歸方程的檢驗及模型預測 254
9.1.2一元線性回歸 255
9.1.3多元線性回歸 262
9.1.4含有定性自變數的線性回歸 266
9.2非線性回歸 270
9.2.1可線性化的非線性分析 270
9.2.2非線性回歸模型 273
9.3多項式回歸 276
9.4分位數回歸 279
第10章離散因變數模型 285
10.1線性機率模型 285
10.2二元選擇模型 287
10.2.1線性機率模型的缺陷與改進 287
10.2.2二元選擇模型的基本原理 287
10.2.2.1模型構建和參數估計過程 288
10.2.2.2模型檢驗 289
10.2.3BINARYPROBIT模型 289
10.2.4BINARYLOGIT模型 293
10.3多重選擇模型 295
10.4計數模型 298
第11章主成分與因子分析 301
11.1數據降維 301
11.1.1數據降維的基本問題 302
11.1.2數據降維的基本原理 302
11.2主成分分析 303
11.2.1主成分分析的基本概念與原理 303
11.2.2主成分分析的基本步驟和過程 304
11.3因子分析 313
11.3.1因子分析的基本原理 313
11.3.1.1因子分析模型 313
11.3.1.2因子旋轉 314
11.3.1.3因子得分 314
11.3.2因子分析的基本步驟和過程 315
第12章列聯分析與對應分析 326
12.1列聯分析 326
12.1.1列聯表 326
12.1.2列聯表的分布 329
12.1.3χ2分布與χ2檢驗 330
12.1.4χ2分布的期望值準則 331
12.2對應分析 332
12.2.1對應分析的基本思想 332
12.2.2對應分析的步驟和過程 333
12.2.2.1機率矩陣P 333
12.2.2.2數據點坐標 333
12.2.2.3行列變數分類降維 335
12.2.2.4對應分析圖 335
第13章聚類 345
13.1聚類的基本原理 345
13.1.1聚類的基本原則 346
13.1.2單一指標的系統聚類過程 347
13.1.3多指標的系統聚類過程 349
13.2聚類的步驟和過程 354
13.2.1系統聚類 354
13.2.2K-MEANS聚類 360
13.2.3DBSCAN聚類 361
第14章判別和分類 363
14.1判別和分類的基本思想 363
14.2常用判別方法和分類算法 364
14.2.1距離判別和線性判別 364
14.2.2貝葉斯判別 371
14.2.3k-近鄰 373
14.2.4決策樹 375
14.2.5隨機森林 380
14.2.6支持向量機 381
第15章時間序列分析 384
15.1時間序列的基本問題 384
15.1.1時間序列的組成部分 384
15.1.2時間序列的平穩性 386
15.1.2.1平穩性的含義 386
15.1.2.2時間序列的零均值化和平穩化 387
15.1.2.3時間序列的平穩性檢驗 387
15.2ARIMA模型的分析過程 390
15.2.1ARIMA模型 391
15.2.1.1AR模型 391
15.2.1.2MA模型 391
15.2.1.3ARMA模型 392
15.2.2ARMA模型的識別、估計與預測 392
15.2.2.1模型的識別 392
15.2.2.2模型參數估計及檢驗 395
15.2.2.3模型的預測 398
1.1Python系統配置 1
1.2Python基礎知識 5
1.2.1幫助 6
1.2.2標識符 6
1.2.3行與縮進 7
1.2.4變數與對象 7
1.2.5數字與表達式 9
1.2.6運算符 10
1.2.7字元串 11
1.2.7.1轉義字元 11
1.2.7.2字元串格式化 12
1.2.7.3字元串的內置方法 13
1.2.8日期和時間 17
1.3數據結構與序列 18
1.3.1列表 19
1.3.1.1列表索引和切片 19
1.3.1.2列表操作 20
1.3.1.3內置列表函式 20
1.3.1.4列表方法 21
1.3.2元組 22
1.3.3字典 23
1.3.4集合 24
1.3.5推導式 26
1.4語句與控制流 27
1.4.1條件語句 27
1.4.2循環語句 28
1.4.2.1while循環 28
1.4.2.2for循環 29
1.4.2.3循環控制 30
1.5函式 30
1.5.1函式的參數 32
1.5.2全局變數與局部變數 32
1.5.3匿名函式 33
1.5.4遞歸和閉包 33
1.5.5柯里化與反柯里化 35
1.5.6常用的內置函式 36
1.5.6.1filter函式 36
1.5.6.2map函式 36
1.5.6.3reduce函式 37
1.6疊代器、生成器和裝飾器 37
1.6.1疊代器 37
1.6.2生成器 38
1.6.3裝飾器 40
1.7類 42
1.7.1聲明類 42
1.7.2方法 44
1.7.2.1實例方法 44
1.7.2.2類方法 45
1.7.2.3靜態方法 46
1.7.3屬性 47
1.7.3.1實例屬性和類屬性 47
1.7.3.2私有屬性和公有屬性 48
1.7.4繼承 49
1.7.4.1隱式繼承 49
1.7.4.2顯式覆蓋 50
1.7.4.3super繼承 51
1.7.4.4多態 52
1.7.4.5多重繼承 54
1.8模組 54
1.9包 55
1.10檔案I/O 55
第2章數據預處理 59
2.1numpy基礎 59
2.1.1向量 61
2.1.2數組 62
2.1.2.1數據類型與結構數組 63
2.1.2.2索引與切片 64
2.1.2.3數組的屬性 68
2.1.2.4數組排序 69
2.1.2.5數組維度 70
2.1.2.6數組組合 72
2.1.2.7數組分拆 75
2.1.2.8ufunc運算 76
2.1.3矩陣 81
2.1.4檔案讀寫 81
2.2pandas基礎 82
2.2.1pandas的數據結構 83
2.2.1.1Series 83
2.2.1.2DataFrame 87
2.2.2pandas的數據操作 96
2.2.2.1排序 96
2.2.2.2排名 98
2.2.2.3運算 100
2.2.2.4函式套用與映射 101
2.2.2.5分組 102
2.2.2.6合併 103
2.2.2.7分類數據 106
2.2.2.8時間序列 107
2.2.2.9缺失值處理 116
第3章數據描述 122
3.1統計量 122
3.1.1集中趨勢 122
3.1.1.1均值 123
3.1.1.2中位數 124
3.1.1.3分位數 125
3.1.1.4眾數 125
3.1.2離散程度 126
3.1.2.1極差 126
3.1.2.2四分位差 127
3.1.2.3方差和標準差 127
3.1.2.4協方差 128
3.1.2.5變異係數 128
3.1.3分布形狀 128
3.1.3.1偏度 129
3.1.3.2峰度 129
3.2統計表 130
3.2.1統計表的基本要素 130
3.2.2統計表的編制 131
第4章統計圖形與可視化 135
4.1matplotlib基本繪圖 135
4.1.1函式繪圖 135
4.1.2圖形基本設定 140
4.1.2.1創建圖例 140
4.1.2.2刻度設定 141
4.1.2.3圖像註解 142
4.1.2.4圖像大小 143
4.1.2.5創建子圖 144
4.1.2.6其他繪圖函式 145
4.1.3面向對象繪圖 146
4.1.4繪圖樣式 148
4.2pandas基本繪圖 148
4.3基本統計圖形 150
4.3.1折線圖 150
4.3.2面積圖 153
4.3.3直方圖 153
4.3.4條形圖 155
4.3.5龍捲風圖 158
4.3.6餅圖 159
4.3.7階梯圖 160
4.3.8盒須圖 161
4.3.9小提琴圖 163
4.3.10散點圖 164
4.3.11氣泡圖 166
4.3.12六邊形箱圖 167
4.3.13雷達坐標圖 168
4.3.14輪廓圖 169
4.3.15調和曲線圖 169
4.3.16等高線圖 170
4.3.17極坐標圖 170
4.3.18詞雲圖 171
4.3.19數據地圖 174
4.4其他繪圖工具 176
第5章簡單統計推斷 178
5.1常用數據分析工具庫 178
5.1.1scipy 178
5.1.2statsmodels 179
5.1.3sklearn 180
5.2簡單統計推斷的基本原理 180
5.2.1數據分布 180
5.2.1.1總體分布 181
5.2.1.2樣本分布 181
5.2.1.3抽樣分布 181
5.2.2參數估計 183
5.2.2.1點估計 184
5.2.2.2區間估計 184
5.2.3假設檢驗 185
5.2.3.1假設檢驗的基本思想 185
5.2.3.2假設檢驗基本步驟 186
5.2.3.3假設檢驗中總體的幾種不同情況 187
5.3單總體參數的估計及假設檢驗 189
5.3.1單總體的參數估計 189
5.3.1.1單總體均值的參數估計 189
5.3.1.2單總體方差、標準差的參數估計 190
5.3.1.3單總體比例的參數估計 191
5.3.2單總體參數的假設檢驗 191
5.3.2.1總體均值的假設檢驗 191
5.3.2.2總體比例的假設檢驗 194
5.4兩總體參數的假設檢驗 194
5.4.1獨立樣本的假設檢驗 195
5.4.1.1獨立樣本均值之差的假設檢驗 195
5.4.1.2獨立樣本比例之差的假設檢驗 197
5.4.2成對樣本的假設檢驗 198
第6章方差分析 201
6.1方差分析的基本原理 201
6.2一元方差分析 205
6.2.1一元單因素方差分析 205
6.2.1.1方差同質性檢驗 206
6.2.1.2方差來源分解及檢驗過程 206
6.2.1.3多重比較檢驗 207
6.2.1.4方差分析模型的參數估計和預測 208
6.2.1.5方差分析模型的預測 210
6.2.2一元多因素方差分析 210
6.2.2.1隻考慮主效應的多因素方差分析 211
6.2.2.2存在互動效應的多因素方差分析 215
6.3協方差分析 217
第7章非參數檢驗 220
7.1非參數檢驗的基本問題 220
7.2單樣本非參數檢驗 221
7.2.1中位數(均值)的檢驗 221
7.2.2分布的檢驗 223
7.2.3遊程檢驗 224
7.3兩個樣本的非參數檢驗 225
7.3.1獨立樣本中位數比較的Wilcoxon秩和檢驗 225
7.3.2獨立樣本的分布檢驗 227
7.3.3成對(匹配)樣本中位數的檢驗 228
7.3.4兩樣本的遊程檢驗 228
7.4多個樣本的非參數檢驗 229
7.4.1多個樣本的分布檢驗 229
7.4.2獨立樣本位置的檢驗 230
第8章相關分析與關聯分析 233
8.1相關分析 233
8.1.1函式關係與相關關係 233
8.1.2簡單相關分析 234
8.1.2.1用圖形描述相關關係 234
8.1.2.2用相關係數測度相關關係 235
8.1.2.3相關係數的顯著性檢驗 236
8.1.3偏相關分析 238
8.1.4點二列相關分析 239
8.1.5非參數相關分析 240
8.1.5.1Spearman相關係數 240
8.1.5.2Kendalltau-b係數 241
8.1.5.3Hoeffding’sD係數 241
8.2關聯分析 243
8.2.1基本概念與數據預處理 243
8.2.2Apriori算法 245
8.2.3FP-growth算法 249
第9章回歸分析 251
9.1線性回歸 251
9.1.1回歸分析的基本原理 251
9.1.1.1參數估計的普通最小二乘法 253
9.1.1.2回歸方程的檢驗及模型預測 254
9.1.2一元線性回歸 255
9.1.3多元線性回歸 262
9.1.4含有定性自變數的線性回歸 266
9.2非線性回歸 270
9.2.1可線性化的非線性分析 270
9.2.2非線性回歸模型 273
9.3多項式回歸 276
9.4分位數回歸 279
第10章離散因變數模型 285
10.1線性機率模型 285
10.2二元選擇模型 287
10.2.1線性機率模型的缺陷與改進 287
10.2.2二元選擇模型的基本原理 287
10.2.2.1模型構建和參數估計過程 288
10.2.2.2模型檢驗 289
10.2.3BINARYPROBIT模型 289
10.2.4BINARYLOGIT模型 293
10.3多重選擇模型 295
10.4計數模型 298
第11章主成分與因子分析 301
11.1數據降維 301
11.1.1數據降維的基本問題 302
11.1.2數據降維的基本原理 302
11.2主成分分析 303
11.2.1主成分分析的基本概念與原理 303
11.2.2主成分分析的基本步驟和過程 304
11.3因子分析 313
11.3.1因子分析的基本原理 313
11.3.1.1因子分析模型 313
11.3.1.2因子旋轉 314
11.3.1.3因子得分 314
11.3.2因子分析的基本步驟和過程 315
第12章列聯分析與對應分析 326
12.1列聯分析 326
12.1.1列聯表 326
12.1.2列聯表的分布 329
12.1.3χ2分布與χ2檢驗 330
12.1.4χ2分布的期望值準則 331
12.2對應分析 332
12.2.1對應分析的基本思想 332
12.2.2對應分析的步驟和過程 333
12.2.2.1機率矩陣P 333
12.2.2.2數據點坐標 333
12.2.2.3行列變數分類降維 335
12.2.2.4對應分析圖 335
第13章聚類 345
13.1聚類的基本原理 345
13.1.1聚類的基本原則 346
13.1.2單一指標的系統聚類過程 347
13.1.3多指標的系統聚類過程 349
13.2聚類的步驟和過程 354
13.2.1系統聚類 354
13.2.2K-MEANS聚類 360
13.2.3DBSCAN聚類 361
第14章判別和分類 363
14.1判別和分類的基本思想 363
14.2常用判別方法和分類算法 364
14.2.1距離判別和線性判別 364
14.2.2貝葉斯判別 371
14.2.3k-近鄰 373
14.2.4決策樹 375
14.2.5隨機森林 380
14.2.6支持向量機 381
第15章時間序列分析 384
15.1時間序列的基本問題 384
15.1.1時間序列的組成部分 384
15.1.2時間序列的平穩性 386
15.1.2.1平穩性的含義 386
15.1.2.2時間序列的零均值化和平穩化 387
15.1.2.3時間序列的平穩性檢驗 387
15.2ARIMA模型的分析過程 390
15.2.1ARIMA模型 391
15.2.1.1AR模型 391
15.2.1.2MA模型 391
15.2.1.3ARMA模型 392
15.2.2ARMA模型的識別、估計與預測 392
15.2.2.1模型的識別 392
15.2.2.2模型參數估計及檢驗 395
15.2.2.3模型的預測 398