Python數據分析:活用Pandas庫

Python數據分析:活用Pandas庫

《Python數據分析:活用Pandas庫》是2020年人民郵電出版社出版的圖書,作者是丹尼爾·陳(Daniel,Y.,Chen)。

基本介紹

  • 中文名:Python數據分析:活用Pandas庫
  • 作者:丹尼爾·陳(Daniel,Y.,Chen)
  • 出版社:人民郵電出版社
  • 出版時間:2020年1月1日
  • 頁數:312 頁
  • 定價:89 元
  • 開本:16 開
  • 裝幀: 平裝  
  • ISBN:9787115529114
編輯推薦,內容簡介,作者簡介,目錄,

編輯推薦

Python強大易用,是數據處理和數據分析利器,而眾多庫的加持令其如虎添翼。Pandas就是其中一個非常流行的開源庫,它可以確保數據的準確性,將數據可視化,還可以高效地操作大型數據集。藉助它,Python可以快速地自動化和執行幾乎任何數據分析任務。
本書細緻講解了Pandas的基礎知識和常見用法,通過簡單的實例展示了如何使用Pandas解決複雜的現實問題,以及如何利用matplotlib、seaborn、statsmodels和sklearn等庫輔助進行Python數據分析,涵蓋了數據處理、數據可視化、數據建模等內容。此外,本書還簡單介紹了Python數據分析生態系統。
***讀者評論
“這本書比我讀過的其他介紹Pandas的書好很多,別的書也不錯,但這本書更簡明扼要。作者先介紹方法,接著給出示例,然後繼續推進,非常適合學習。”
“這本書令人耳目一新,講解沒有陷入無關緊要的細節和冗長的理論,而是直截了當地介紹如何精通Pandas(以及seaborn和其他庫),還涵蓋了數據科學的基礎(整理數據、可視化等)。”
“我讀過許多介紹Pandas的書、部落格和論文,這本書格外出眾,它講解清晰,示例豐富,討論也很有層次:先整體概述,再逐漸深入······一些困擾了我很久的問題在這本書中得到了解答。”

內容簡介

本書是Python數據分析入門書,每個概念都通過簡單實例來闡述,便於讀者理解與上手。具體內容包括:Python及Pandas基礎知識,載入和查看數據集,Pandas的DataFrame對象和Series對象,使用matplotlib、seaborn和Pandas提供的繪圖方法為探索性數據分析作圖,連線與合併數據集,處理缺失數據,清理數據,轉換數據類型,處理字元串,套用函式,分組操作,擬合及評估模型,正則化方法與聚類技術等。

作者簡介

丹尼爾·陳(Daniel Y. Chen)
Lander Analytics公司數據科學家,Software Carpentry和Data Carpentry的講師和課程維護人員,DataCamp的課程講師。目前他在弗尼吉亞理工大學社會與決策分析實驗室從事政策決策數據分析。

目錄

獻詞 iii
序 iv
前言 v
致謝 xi
關於作者 xiv
第 一部分 簡介 1
第 1章 Pandas DataFrame基礎知識 2
1.1 簡介 2
1.2 載入數據集 3
1.3 查看列、行、單元格 5
1.3.1 取列子集 6
1.3.2 取行子集 7
1.3.3 混合 11
1.4 分組和聚合計算 16
1.4.1 分組方式 17
1.4.2 分組頻率計數 21
1.5 基本繪圖 21
1.6 小結 22
第 2章 Pandas數據結構 23
2.1 簡介 23
2.2 創建數據 24
2.2.1 創建Series 24
2.2.2 創建DataFrame 25
2.3 Series 26
2.3.1 類似於ndarray的Series 27
2.3.2 布爾子集:Series 29
2.3.3 操作自動對齊和向量化(廣播) 31
2.4 DataFrame 34
2.4.1 布爾子集:DataFrame 34
2.4.2 操作自動對齊和向量化(廣播) 35
2.5 更改Series和DataFrame 36
2.5.1 添加列 36
2.5.2 直接更改列 37
2.5.3 刪除值 39
2.6 導出和導入數據 40
2.6.1 保存數據 40
2.6.2 CSV 42
2.6.3 Excel 42
2.6.4 feather檔案格式 43
2.6.5 其他數據輸出格式 43
2.7 小結 44
第3章 繪圖入門 45
3.1 簡介 45
3.2 matplotlib 46
3.3 使用matplotlib繪製統計圖 51
3.3.1 單變數 52
3.3.2 雙變數 53
3.3.3 多變數數據 54
3.4 seaborn 56
3.4.1 單變數 56
3.4.2 雙變數數據 59
3.4.3 多變數數據 67
3.5 Pandas對象 75
3.5.1 直方圖 75
3.5.2 密度圖 76
3.5.3 散點圖 77
3.5.4 蜂巢圖 77
3.5.5 箱線圖 79
3.6 seaborn主題和樣式 79
3.7 小結 81
第二部分 數據處理 83
第4章 數據組合 84
4.1 簡介 84
4.2 整理數據 84
4.3 連線 85
4.3.1 添加行 85
4.3.2 添加列 89
4.3.3 不同索引下的連線操作 90
4.4 合併多個數據集 93
4.4.1 一對一合併 94
4.4.2 多對一合併 95
4.4.3 多對多合併 95
4.5 小結 97
第5章 缺失數據 98
5.1 簡介 98
5.2 何為NaN值 98
5.3 缺失值從何而來 100
5.3.1 載入數據 100
5.3.2 合併數據 101
5.3.3 用戶輸入值 103
5.3.4 重建索引 103
5.4 處理缺失數據 105
5.4.1 查找和統計缺失數據 105
5.4.2 清理缺失數據 106
5.4.3 缺失值計算 109
5.5 小結 110
第6章 整理數據 111
6.1 簡介 111
6.2 包含值而非變數的列 112
6.2.1 固定一列 112
6.2.2 固定多列 114
6.3 包含多個變數的列 115
6.3.1 單獨拆分和添加列(簡單方法) 116
6.3.2 在單個步驟中進行拆分和組合(簡單方法) 118
6.3.3 在單個步驟中進行拆分和組合(複雜方法) 118
6.4 行與列中的變數 119
6.5 一張表中多個觀測單元(歸一化) 121
6.6 跨多張表的觀測單元 123
6.6.1 使用循環載入多個檔案 125
6.6.2 使用列表推導載入多個檔案 126
6.7 小結 127
第三部分 數據整理 129
第7章 數據類型 130
7.1 簡介 130
7.2 數據類型 130
7.3 類型轉換 131
7.3.1 轉換為字元串對象 131
7.3.2 轉換為數值類型 132
7.4 分類數據 136
7.4.1 轉換為category類型 137
7.4.2 操作分類數據 137
7.5 小結 138
第8章 字元串和文本數據 139
8.1 簡介 139
8.2 字元串 139
8.2.1 取子串和字元串切片 139
8.2.2 獲取字元串的最後一個字元 141
8.3 字元串方法 143
8.4 更多字元串方法 144
8.4.1 join方法 144
8.4.2 splitlines方法 144
8.5 字元串格式化 145
8.5.1 自定義字元串格式 146
8.5.2 格式化字元串 146
8.5.3 格式化數字 146
8.5.4 C printf格式化風格 147
8.5.5 Python 3.6+中的格式化字元串 148
8.6 正則表達式 148
8.6.1 匹配模式 149
8.6.2 查找模式 152
8.6.3 模式替代 152
8.6.4 編譯模式 153
8.7 regex庫 154
8.8 小結 154
第9章 套用 155
9.1 簡介 155
9.2 函式 155
9.3 使用函式 156
9.3.1 Series的apply方法 157
9.3.2 DataFrame的apply方法 158
9.4 apply高級用法 160
9.4.1 按列套用 162
9.4.2 按行套用 164
9.5 向量化函式 166
9.5.1 使用NumPy 167
9.5.2 使用numba 168
9.6 lambda函式 168
9.7 小結 170
第 10章 分組操作:分割-套用-組合 171
10.1 簡介 171
10.2 聚合 171
10.2.1 基本的單變數分組聚合 172
10.2.2 Pandas內置的聚合方法 173
10.2.3 聚合函式 174
10.2.4 同時傳入多個函式 176
10.2.5 在agg/aggregate中使用字典 177
10.3 轉換 178
10.4 過濾器 182
10.5 pandas.core.groupby.DataFrameGroupBy對象 183
10.5.1 分組 183
10.5.2 涉及多個變數的分組計算 184
10.5.3 選擇分組 184
10.5.4 遍歷分組 184
10.5.5 多個分組 186
10.5.6 平鋪結果 187
10.6 使用多重索引 188
10.7 小結 191
第 11章 datetime數據類型 192
11.1 簡介 192
11.2 Python的datatime對象 192
11.3 轉換為datetime 193
11.4 載入包含日期的數據 196
11.5 提取日期的各個部分 196
11.6 日期運算和Timedelta 198
11.7 datetime方法 200
11.8 獲取股票數據 202
11.9 基於日期取數據子集 203
11.9.1 DatetimeIndex對象 203
11.9.2 TimedeltaIndex對象 204
11.10 日期範圍 205
11.10.1 頻率 206
11.10.2 偏移量 207
11.11 移動 207
11.12 重採樣 213
11.13 時區 214
11.14 小結 215
第四部分 數據建模 217
第 12章 線性模型 218
12.1 簡介 218
12.2 簡單線性回歸 218
12.2.1 使用統計模型庫 218
12.2.2 使用sklearn庫 220
12.3 多元回歸 222
12.3.1 使用statsmodels庫 222
12.3.2 使用statsmodels和分類變數 222
12.3.3 使用sklearn庫 224
12.3.4 使用sklearn和分類變數 225
12.4 保留sklearn的索引標籤 226
12.5 小結 226
第 13章 廣義線性模型 227
13.1 簡介 227
13.2 邏輯回歸 227
13.2.1 使用statsmodels 229
13.2.2 使用sklearn 230
13.3 泊松回歸 232
13.3.1 使用statsmodels 232
3.3.2 負二項回歸 233
13.4 更多GLM 234
13.5 生存分析 235
13.6 小結 238
第 14章 模型診斷 239
14.1 簡介 239
14.2 殘差 239
14.3 比較多個模型 243
14.3.1 比較線性模型 243
14.3.2 比較GLM 246
14.4 k折交叉驗證 248
14.5 小結 251
第 15章 正則化 252
15.1 簡介 252
15.2 何為正則化 252
15.3 LASSO回歸 254
15.4 嶺回歸 255
15.5 彈性網 256
15.6 交叉驗證 258
15.7 小結 260
第 16章 聚類 261
16.1 簡介 261
16.2 k均值聚類 261
16.3 層次聚類 267
16.3.1 最長距離法 267
16.3.2 最短距離法 267
16.3.3 平均距離法 268
16.3.4 重心法 268
16.3.5 手動設定閾值 269
16.4 小結 270
第五部分 終章 271
第 17章 Pandas之外 272
17.1 科學計算棧 272
17.2 性能 272
17.2.1 測試代碼運行時間 272
17.2.2 分析代碼 274
17.3 規模更大、速度更快 274
第 18章 寫給自學者 275
18.1 不可閉門造車 275
18.2 本地聚會 275
18.3 參加會議 275
18.4 網際網路 276
18.5 播客 276
18.6 小結 276
第六部分 附錄
附錄A 安裝 278
附錄B 命令行 280
附錄C 項目模板 282
附錄D Python代碼編寫工具 283
附錄E 工作目錄 285
附錄F 環境 287
附錄G 安裝包 289
附錄H 導入庫 291
附錄I 列表 293
附錄J 元組 294
附錄K 字典 295
附錄L 切片 297
附錄M 循環 299
附錄N 推導式 300
附錄O 函式 301
附錄P 範圍和生成器 305
附錄Q 多重賦值 307
附錄R NumPy ndarray 309
附錄S 類 311
附錄T 變形器odo 313
著作權聲明 314

相關詞條

熱門詞條

聯絡我們