Python數據分析從小白到專家

Python數據分析從小白到專家

《Python數據分析從小白到專家》是電子工業出版社出版圖書,作者是田越。講解了11 種數據分析方法,拿來就用。全書包括100多張圖表,方便讀者學習。剖析NumPy、Pandas、Matplotlib的使用方法

基本介紹

  • 書名:Python數據分析從小白到專家
  • 作者:田越
  • 出版社:電子工業出版社
  • 出版時間:2021年5月
  • 頁數:300 頁
  • 定價:88 元
  • 開本:16 開
  • ISBN:9787121409233
內容簡介,圖書目錄,

內容簡介

內容通俗易懂,腳晚禁市案例豐富,實用性強,內容涵蓋Python語法及數據分析方法

圖書目錄

第1章 數據分析存在的意義 1
1.1 數據分析與Python 1
1.1.1 數據科學和數據分析的始末 1
1.1.2 為什麼使用Python作為腳本 2
1.2 本書和促跨駝的主要內容 3
1.2.1 數據分析基礎:NumPy、Pandas和Matplotlib庫概述 3
1.2.2 數據處理:NumPy庫簡介 4
1.2.3 數據處理:Pandas庫簡介 4
1.2.4 圖表繪製:Matplotlib庫簡介 5
1.2.5 中堅力量:Sklearn和Statsmodels庫簡介 5
第2章 開始前的準備 6
2.1 Python 3.7.6的安裝 6
2.1.1 Python3和Python2的區別 6
2.1.2 在Windows 10系統立求中下載並安裝Python 3.7.6 7
2.1.3 手動配置環境變數 10
2.2 pip的安裝 12
2.2.1 pip是什麼 12
2.2.2 在Windows系統中下載和安裝pip 12
2.2.3 使用pip命令下載和管理pip 14
第3章 Python編程基礎 17
3.1 Python編程初識 18
3.1.1 第一個Python程式 18
3.1.2 整型、浮點型、布爾型與複數型 19
3.1.3 不同數據類型之間的運算法則 22
3.1.4 Python中的常用內建函式 25
3.2 Python編程常用類型 27
3.2.1 Python的列表 27
3.2.2 Python的元組 31
3.2.3 Python的字典 34
3.2.4 Python的字元串 38
3.3 Python的條件、循環和分支語句以及異常處理 42
3.3.1 Python的編程風格 42
3.3.2 錯誤、異常和異常處理 43
3.3.3 條件語句:if、if-else和elif 45
3.3.4 循環語句:while和for 46
3.4 其他關於Python的重要知識點 49
3.4.1 匿名函式lambda 49
3.4.2 Python自定義類與列印函式 51
第4章 線性代數知識和第三方庫NumPy的使用 54
4.1 必要的線性代數知識 55
4.1.1 線性代數綜述 55
4.1.2 行列式 56
4.1.3 矩陣及矩陣的運算 60
4.1.4 矩陣的初等變換與秩、向量組與線性相關 65
4.1.5 相似矩陣 67
4.2 NumPy庫的基礎操作 69
4.2.1 NumPy庫的安裝和基本方法 69
4.2.2 創建一個數組 70
4.2.3 索引、蒸察白切片和疊代 73
4.2.4 拼合、劃分一個矩陣 79
4.2.5 深拷貝、淺拷貝與不拷貝 84
4.3 用NumPy庫實現矩陣運算 87
4.3.1 矩陣基本運算一(矩陣加法、矩陣減法、矩陣數乘) 87
4.3.2 矩陣基本運算二(矩陣相乘、逆矩陣、矩陣的特徵值和特徵向量) 88
第5章 使用正則贈膠催表達式辯捆欠處理數據 91
5.1 RE模組簡述 91
5.1.1 正則表達式(RE)模組使用的符號 92
5.1.2 正則表達式的匹配規則 93
5.2 使用正則表達式模組 94
第6章 使用Pandas庫處理數據 101
6.1 Pandas庫簡述 101
6.1.1 Pandas庫能做什麼 101
6.1.2 Pandas庫功能簡述 105
6.2 三種格式的檔案後綴簡述 108
6.2.1 什麼是CSV檔案 108
6.2.2 Python自帶的CSV模組 109
6.2.3 為什麼要將TXT和Excel檔案轉化為CSV檔案 111
6.3 處理.csv格式的數據 111
6.4 處理非.csv格式的數據 116
6.4.1 用Pandas庫讀取TXT檔案 116
6.4.2 用Pandas庫讀取Excel檔案 118
6.5 Pandas庫的其他常用操作 121
6.5.1 新增DataFrame數據結構的意義 121
6.5.2 創建與遍歷DataFrame數據結構 122
6.5.3 檢索已有的DataFrame數據結構 124
6.5.4 DataFrame數據結構的選擇操作 128
6.5.5 處理DataFrame數據結構中的缺失請擊婆數據 134
第7章 使用Matplotlib庫實現數據可視化 136
7.1 Matplotlib庫簡述 136
7.1.1 Matplotlib庫的安裝 137
7.1.2 Matplotlib庫常見的問題 138
7.2 Matplotlib庫的基本方法 139
7.2.1 設定x軸與y軸的相關內容 139
7.2.2 “點”和“線”樣式的設定 144
7.3 使用Matplotlib庫繪製圖表 146
7.3.1 繪製柱狀圖 147
7.3.2 繪製直方圖 149
7.3.3 繪製散點圖 151
7.3.4 繪製餅狀圖 153
7.3.5 繪製折線圖 155
第8章 數學模型與數理統計 157
8.1 走進數學模型 158
8.1.1 什麼是數學模型 158
8.1.2 建立數學模型的一般步驟 160
8.1.3 數學模型示例 162
8.2 必要的數理統計知識 164
8.2.1 樣本、總體、個體、統計量 164
8.2.2 3個重要的分布:χ2分布、t分布、f分布 165
8.2.3 點估計、矩估計與區間估計 167
8.2.4 全機率公式和貝葉斯公式 168
8.2.5 依機率收斂與切比雪夫不等式 170
第9章 線性回歸 172
9.1 最小二乘法與切比雪夫準則 172
9.1.1 最小二乘法的數學原理 173
9.1.2 切比雪夫準則的數學原理 175
9.2 OLS回歸模型 175
9.2.1 OLS回歸模型的概念 176
9.2.2 如何生成測試數據 176
9.2.3 OLS回歸模型的代碼實現和可視化 179
9.3 LAD回歸模型 182
9.3.1 LAD回歸模型的概念 182
9.3.2 LAD回歸模型的代碼實現和可視化 183
9.4 OLS回歸模型與LAD回歸模型 186
9.4.1 比較OLS回歸模型與LAD回歸模型的擬合曲線 186
9.4.2 簡單的一元線性回歸分析的代碼展示 187
9.5 從極大似然估計再審視線性回歸 189
9.5.1 從傳統的數理統計到線性回歸 189
9.5.2 極大似然估計 190
9.5.3 假設檢驗基本概念 191
9.5.4 區間估計、置信區間和置信限 192
第10章 分類問題與邏輯回歸 197
10.1 邏輯回歸:從分類問題談起 197
10.1.1 從線性回歸到分類問題 198
10.1.2 邏輯回歸與Sigmoid函式 199
10.1.3 使用極大似然估計計算Sigmoid函式的損失函式 201
10.1.4 邏輯回歸模型求解的本質 202
10.2 從梯度上升法與梯度下降法到邏輯回歸 202
10.2.1 梯度上升法和梯度下降法的由來 202
10.2.2 梯度下降法及梯度上升法的數學原理 203
10.2.3 用Python實現邏輯回歸 206
10.2.4 題外話:從用Python實現邏輯回歸中看psutil庫 216
10.2.5 邏輯回歸可視化:繪製決策邊界 220
第11章 模型評估與模型改進 223
11.1 線性回歸模型的評估與改進 223
11.1.1 線性回歸模型的評估 224
11.1.2 模型改進:從一元線性回歸到多元線性回歸問題 231
11.1.3 模型改進:過度擬合與添加、設定懲罰項 238
11.2 邏輯回歸模型的評估與改進 239
11.2.1 分類模型的評估:查準率、查全率及F-score 239
11.2.2 分類模型的評估:ROC曲線、AUC指標 241
11.2.3 模型改進:隨機梯度下降法 242
11.2.4 邏輯回歸最終代碼展示(使用隨機梯度下降法) 245
第12章 聚類:K-means算法 248
12.1 K-means算法及相關內容的基本概念 248
12.1.1 聚類與機器學習的概念 249
12.1.2 聚類:K-means算法的原理 250
12.2 K-means算法的Python實現 253
12.2.1 樸素的K-means算法的Python實現 253
12.2.2 樸素的K-means算法的Python實現的具體解析 256
12.2.3 模型改進:使用不同顏色和形狀標記不同的簇 261
12.2.4 K-means算法改進:使用二分K-means算法 263
第13章 分類:KNN算法 271
13.1 KNN算法的基本概念 271
13.1.1 KNN算法的相關概念 271
13.1.2 KNN算法原理概述 272
13.2 KNN算法的Python實現 274
13.2.1 製作測試用例數據集 274
13.2.2 KKN算法的具體實現 279
13.2.3 KKN算法的完整代碼 282
13.3 結語:關於數據分析 285
13.3.1 決策樹之前:樹的概念 285
13.3.2 信息熵和決策樹 285
13.3.3 寫在最後的話:留給機器學習 286
4.1 必要的線性代數知識 55
4.1.1 線性代數綜述 55
4.1.2 行列式 56
4.1.3 矩陣及矩陣的運算 60
4.1.4 矩陣的初等變換與秩、向量組與線性相關 65
4.1.5 相似矩陣 67
4.2 NumPy庫的基礎操作 69
4.2.1 NumPy庫的安裝和基本方法 69
4.2.2 創建一個數組 70
4.2.3 索引、切片和疊代 73
4.2.4 拼合、劃分一個矩陣 79
4.2.5 深拷貝、淺拷貝與不拷貝 84
4.3 用NumPy庫實現矩陣運算 87
4.3.1 矩陣基本運算一(矩陣加法、矩陣減法、矩陣數乘) 87
4.3.2 矩陣基本運算二(矩陣相乘、逆矩陣、矩陣的特徵值和特徵向量) 88
第5章 使用正則表達式處理數據 91
5.1 RE模組簡述 91
5.1.1 正則表達式(RE)模組使用的符號 92
5.1.2 正則表達式的匹配規則 93
5.2 使用正則表達式模組 94
第6章 使用Pandas庫處理數據 101
6.1 Pandas庫簡述 101
6.1.1 Pandas庫能做什麼 101
6.1.2 Pandas庫功能簡述 105
6.2 三種格式的檔案後綴簡述 108
6.2.1 什麼是CSV檔案 108
6.2.2 Python自帶的CSV模組 109
6.2.3 為什麼要將TXT和Excel檔案轉化為CSV檔案 111
6.3 處理.csv格式的數據 111
6.4 處理非.csv格式的數據 116
6.4.1 用Pandas庫讀取TXT檔案 116
6.4.2 用Pandas庫讀取Excel檔案 118
6.5 Pandas庫的其他常用操作 121
6.5.1 新增DataFrame數據結構的意義 121
6.5.2 創建與遍歷DataFrame數據結構 122
6.5.3 檢索已有的DataFrame數據結構 124
6.5.4 DataFrame數據結構的選擇操作 128
6.5.5 處理DataFrame數據結構中的缺失數據 134
第7章 使用Matplotlib庫實現數據可視化 136
7.1 Matplotlib庫簡述 136
7.1.1 Matplotlib庫的安裝 137
7.1.2 Matplotlib庫常見的問題 138
7.2 Matplotlib庫的基本方法 139
7.2.1 設定x軸與y軸的相關內容 139
7.2.2 “點”和“線”樣式的設定 144
7.3 使用Matplotlib庫繪製圖表 146
7.3.1 繪製柱狀圖 147
7.3.2 繪製直方圖 149
7.3.3 繪製散點圖 151
7.3.4 繪製餅狀圖 153
7.3.5 繪製折線圖 155
第8章 數學模型與數理統計 157
8.1 走進數學模型 158
8.1.1 什麼是數學模型 158
8.1.2 建立數學模型的一般步驟 160
8.1.3 數學模型示例 162
8.2 必要的數理統計知識 164
8.2.1 樣本、總體、個體、統計量 164
8.2.2 3個重要的分布:χ2分布、t分布、f分布 165
8.2.3 點估計、矩估計與區間估計 167
8.2.4 全機率公式和貝葉斯公式 168
8.2.5 依機率收斂與切比雪夫不等式 170
第9章 線性回歸 172
9.1 最小二乘法與切比雪夫準則 172
9.1.1 最小二乘法的數學原理 173
9.1.2 切比雪夫準則的數學原理 175
9.2 OLS回歸模型 175
9.2.1 OLS回歸模型的概念 176
9.2.2 如何生成測試數據 176
9.2.3 OLS回歸模型的代碼實現和可視化 179
9.3 LAD回歸模型 182
9.3.1 LAD回歸模型的概念 182
9.3.2 LAD回歸模型的代碼實現和可視化 183
9.4 OLS回歸模型與LAD回歸模型 186
9.4.1 比較OLS回歸模型與LAD回歸模型的擬合曲線 186
9.4.2 簡單的一元線性回歸分析的代碼展示 187
9.5 從極大似然估計再審視線性回歸 189
9.5.1 從傳統的數理統計到線性回歸 189
9.5.2 極大似然估計 190
9.5.3 假設檢驗基本概念 191
9.5.4 區間估計、置信區間和置信限 192
第10章 分類問題與邏輯回歸 197
10.1 邏輯回歸:從分類問題談起 197
10.1.1 從線性回歸到分類問題 198
10.1.2 邏輯回歸與Sigmoid函式 199
10.1.3 使用極大似然估計計算Sigmoid函式的損失函式 201
10.1.4 邏輯回歸模型求解的本質 202
10.2 從梯度上升法與梯度下降法到邏輯回歸 202
10.2.1 梯度上升法和梯度下降法的由來 202
10.2.2 梯度下降法及梯度上升法的數學原理 203
10.2.3 用Python實現邏輯回歸 206
10.2.4 題外話:從用Python實現邏輯回歸中看psutil庫 216
10.2.5 邏輯回歸可視化:繪製決策邊界 220
第11章 模型評估與模型改進 223
11.1 線性回歸模型的評估與改進 223
11.1.1 線性回歸模型的評估 224
11.1.2 模型改進:從一元線性回歸到多元線性回歸問題 231
11.1.3 模型改進:過度擬合與添加、設定懲罰項 238
11.2 邏輯回歸模型的評估與改進 239
11.2.1 分類模型的評估:查準率、查全率及F-score 239
11.2.2 分類模型的評估:ROC曲線、AUC指標 241
11.2.3 模型改進:隨機梯度下降法 242
11.2.4 邏輯回歸最終代碼展示(使用隨機梯度下降法) 245
第12章 聚類:K-means算法 248
12.1 K-means算法及相關內容的基本概念 248
12.1.1 聚類與機器學習的概念 249
12.1.2 聚類:K-means算法的原理 250
12.2 K-means算法的Python實現 253
12.2.1 樸素的K-means算法的Python實現 253
12.2.2 樸素的K-means算法的Python實現的具體解析 256
12.2.3 模型改進:使用不同顏色和形狀標記不同的簇 261
12.2.4 K-means算法改進:使用二分K-means算法 263
第13章 分類:KNN算法 271
13.1 KNN算法的基本概念 271
13.1.1 KNN算法的相關概念 271
13.1.2 KNN算法原理概述 272
13.2 KNN算法的Python實現 274
13.2.1 製作測試用例數據集 274
13.2.2 KKN算法的具體實現 279
13.2.3 KKN算法的完整代碼 282
13.3 結語:關於數據分析 285
13.3.1 決策樹之前:樹的概念 285
13.3.2 信息熵和決策樹 285
13.3.3 寫在最後的話:留給機器學習 286

相關詞條

熱門詞條

聯絡我們