Python大數據處理與分析

Python大數據處理與分析

《Python大數據處理與分析》是2021年人民郵電出版社出版的圖書。

基本介紹

  • 中文名:Python大數據處理與分析
  • 作者:安俊秀,唐聃,靳宇倡
  • 出版時間:2021年
  • 出版社:人民郵電出版社
  • ISBN:9787115556851
內容簡介,圖書目錄,

內容簡介

本書介紹利用Python進行大數據處理與分析的詳細方法和步驟。全書共9章,主要內容包括搭建開發環境、Numpy庫、Pandas庫、Matplotlib庫、數據預處理以及多個案例分析。本書注重理論緊密聯繫實際,使讀者可以系統、全面地了解Python大數據處理與分析的實用技術和方法。
本書可作為高等院校Python大數據處理與分析相關課程的教材,也可以作為計算機相關專業的專業課或選修課教材,同時還可以作為從事Python與大數據技術相關工作人員的參考用書。

圖書目錄

第 一部分 基礎篇
第 1章 搭建開發環境 2
1.1 Python解釋器的安裝 2
1.1.1 在Windows系統下安裝Python解釋器 2
1.1.2 在Linux系統下安裝Python解釋器 6
1.1.3 在macOS系統下安裝Python解釋器 10
1.1.4 運行第 一個hello world程式 12
1.2 Anaconda的安裝及環境變數配置 12
1.2.1 Anaconda簡介 12
1.2.2 安裝Anaconda 14
1.2.3 配置Anaconda環境變數 16
1.3 Jupyter Notebook與PyCharm的安裝及工程環境設定 17
1.3.1 Jupyter Notebook的簡介與安裝 18
1.3.2 設定Jupyter Notebook工程環境 19
1.3.3 PyCharm的簡介與安裝 23
1.3.4 設定PyCharm工程環境 25
習題 28
第 2章 使用NumPy進行數據
計算 29
2.1 安裝NumPy 29
2.2 NumPy中的數組對象 30
2.2.1 數組對象的創建 31
2.2.2 數組對象的常用屬性 34
2.2.3 數組元素的訪問與修改 36
2.2.4 數組對象的基礎運算 37
2.2.5 數組對象的常用函式 38
2.3 使用NumPy進行數學運算 42
2.3.1 位運算函式 42
2.3.2 數學函式 44
2.3.3 算術函式 45
2.3.4 統計函式 47
2.3.5 線性代數函式 49
2.4 NumPy使用案例 52
習題 53
第3章 使用pandas進行數據分析 54
3.1 安裝pandas 54
3.2 pandas中的對象 55
3.2.1 Series對象 56
3.2.2 DataFrame對象 57
3.3 pandas的基本操作 58
3.3.1 導入與導出數據 59
3.3.2 數據的查看與檢查 60
3.3.3 數據的增刪查改 62
3.4 pandas的基本運用 64
3.4.1 數據統計 64
3.4.2 算術運算與數據對齊 66
3.5 pandas使用案例 68
習題 70
第4章 Matplotlib數據
可視化 71
4.1 安裝Matplotlib與繪圖基本步驟 71
4.1.1 安裝Matplotlib 71
4.1.2 Matplotlib繪圖基本步驟 72
4.2 經典圖形繪製 74
4.2.1 折線圖 74
4.2.2 柱狀圖 77
4.2.3 直方圖 80
4.2.4 散點圖 82
4.2.5 等值線圖及地理信息可視化 86
4.3 圖表調整及美化 92
4.3.1 圖表主要組成元素調整 92
4.3.2 顏色參數及映射表 97
4.4 Matplotlib使用案例 98
習題 102
第5章 數據預處理 103
5.1 數據清洗與準備 103
5.1.1 數據清洗準備 103
5.1.2 數據清洗 104
5.2 正則表達式 108
5.2.1 正則表達式的特點與組成 108
5.2.2 字元串方法 109
5.2.3 re模組 113
5.3 數據規整 117
5.3.1 聚合、分組及數據透視 117
5.3.2 特徵選擇(降維) 120
5.3.3 數據變換與數據規約 122
5.3.4 稀疏表示和字典學習 124
習題 126
第二部分 實例篇
第6章 基於大數據的房產估價 128
6.1 情景問題提出及分析 128
6.2 多元回歸模型介紹 128
6.3 方法與過程 129
6.3.1 讀入數據並進行數據預處理 130
6.3.2 將預處理好的數據可視化 141
6.3.3 使用多元回歸模型進行房產估價 146
6.3.4 模型效果評價 148
上機實驗 151
第7章 某移動公司客戶價值分析 152
7.1 情景問題提出及分析 152
7.2 K-Means聚類算法簡介 153
7.3 客戶價值分析過程 155
7.3.1 讀入數據並進行數據預處理 156
7.3.2 數據標準化 165
7.3.3 使用K-Means聚類算法對客戶進行分析 167
7.3.4 數據可視化及數據分析 172
上機實驗 178
第8章 基於歷史數據的氣溫及降水預測 179
8.1 情景問題提出及分析 179
8.2 常見的時間序列模型簡介 180
8.2.1 AR模型 180
8.2.2 MA模型 181
8.2.3 ARMA模型 181
8.2.4 ARIMA模型 182
8.2.5 模型求解步驟 183
8.3 平穩序列建模示例(降水預測) 186
8.3.1 讀入數據並進行預處理 186
8.3.2 時間序列的平穩性分析 190
8.3.3 模型選擇及定階 191
8.3.4 建立時序模型並預測 193
8.4 非平穩序列建模示例(氣溫預測) 195
8.4.1 讀入數據並進行預處理 195
8.4.2 時間序列的平穩性分析 197
8.4.3 模型選擇及定階 198
8.4.4 建立時序模型並預測 200
上機實驗 202
第9章 智慧型電網的電能預估及價值分析 203
9.1 情景問題提出及分析 203
9.2 決策樹算法簡介 203
9.2.1 ID3算法 205
9.2.2 C4.5算法 207
9.2.3 CART算法 208
9.2.4 預剪枝與後剪枝 208
9.2.5 連續值處理 209
9.3 方法與過程 211
9.3.1 讀入數據並預處理 211
9.3.2 模型構建 218
9.3.3 模型效果評價 221
上機實驗 221
參考文獻 223

相關詞條

熱門詞條

聯絡我們