零基礎入門Python數據分析與機器學習

零基礎入門Python數據分析與機器學習

《零基礎入門Python數據分析與機器學習》是2021年清華大學出版社出版的圖書,作者是王國平。

基本介紹

  • 中文名:零基礎入門Python數據分析與機器學習
  • 作者:王國平
  • 出版時間:2021年10月1日
  • 出版社:清華大學出版社
  • ISBN:9787302589174
  • 定價:69 元
內容簡介,作者簡介,目錄,

內容簡介

本書由一線的資深數據分析師精寫,以新版Python 3.10作為數據分析與挖掘的程式語言,循序漸進地介紹了Python數據分析的方法與技巧以及機器學習算法及其套用案例。全書首先講解Python基礎語法,以便於從未接觸過編程的讀者能夠快速上手,然後介紹了當前流行的常用數據分析工具,如數值計算工具NumPy、數據處理工具Pandas、數據可視化工具Matplotlib和數據挖掘工具Sklearn等,最後介紹了10大常用機器學習算法及其在數據挖掘中的套用,針對每一個算法均給出了案例實現,以便於讀者能夠學有所用。

作者簡介

王國平,畢業於上海海洋大學,碩士,從業十餘年,主要從事數據可視化、數據挖掘和大數據分析與研究等工作。精通Tableau、SPSS、SPSS Modeler、Power BI等軟體,已出版《IBM SPSS Modeler數據與文本挖掘實戰》《Microsoft Power BI數據可視化與數據分析》《Tableau數據可視化從入門到精通》《SPSS統計分析與行業套用實戰》等專著 。

目錄

第1章 構建數據分析開發環境 1
1.1 數據分析概述 1
1.1.1 為什麼要進行數據分析 1
1.1.2 數據分析的流程與思維 2
1.2 開發環境的構建 4
1.2.1 安裝Anaconda 5
1.2.2 安裝Jupyter庫 6
1.2.3 安裝PyCharm社區版 8
1.2.4 包管理工具 11
1.2.5 環境測試 12
1.3 必會的Python數據分析包 12
1.3.1 NumPy數組操作 13
1.3.2 Pandas數據清洗 13
1.3.3 Matplotlib數據可視化 14
1.3.4 Sklearn數據建模 16
1.4 一個簡單的數據分析案例 17
1.5 小結與課後練習 19
第2章 Python核心基礎 20
2.1 Python數據類型 20
2.1.1 數值類型 20
2.1.2 字元串類型 21
2.1.3 列表類型 23
2.1.4 元組類型 24
2.1.5 集合類型 25
2.1.6 字典類型 27
2.2 Python基礎語法 28
2.2.1 代碼行與縮進 28
2.2.2 條件if及if嵌套 29
2.2.3 循環:while與for 30
2.2.4 格式化:format與% 32
2.3 Python高階函式 34
2.3.1 map函式 34
2.3.2 reduce函式 35
2.3.3 filter函式 36
2.3.4 sorted函式 36
2.4 Python編程技巧 37
2.4.1 自動補全程式 37
2.4.2 變數值的互換 38
2.4.3 列表解析式 39
2.4.4 元素序列解包 40
2.5 小結與課後練習 41
第3章 Python數據分析基礎 42
3.1 數據的讀取 42
3.1.1 本地離線數據 42
3.1.2 Web線上數據 44
3.1.3 常用資料庫數據 45
3.2 數據的索引 46
3.2.1 創建與查看索引 46
3.2.2 索引重構與恢復 48
3.2.3 索引調整與排序 49
3.3 數據的切片 49
3.3.1 提取多列數據 50
3.3.2 提取多行數據 51
3.3.3 提取區域數據 51
3.4 數據的聚合 52
3.4.1 指定列數據統計 52
3.4.2 多欄位分組統計 53
3.4.3 自定義聚合指標 54
3.5 小結與課後練習 55
第4章 NumPy數組操作 56
4.1 NumPy索引與切片 56
4.1.1 數組的索引 56
4.1.2 布爾型索引 57
4.1.3 花式索引 59
4.1.4 數組的切片 60
4.1.5 設定切片步長 61
4.2 NumPy維數變換 62
4.2.1 reshape函式 62
4.2.2 shape函式 63
4.2.3 resize函式 64
4.2.4 ravel函式 65
4.2.5 flatten函式 66
4.3 NumPy廣播機制 67
4.3.1 廣播 67
4.3.2 廣播機制 68
4.3.3 廣播機制變化過程 69
4.3.4 廣播不兼容 70
4.4 NumPy矩陣運算 72
4.4.1 矩陣概述 72
4.4.2 矩陣的乘法 74
4.4.3 矩陣的內積 74
4.4.4 矩陣的外積 75
4.5 小結與課後練習 77
第5章 Pandas數據清洗 78
5.1 重複值檢測與處理 78
5.1.1 重複值的檢測 78
5.1.2 重複值的處理 79
5.2 缺失值檢測與處理 80
5.2.1 缺失值的檢測 81
5.2.2 缺失值的處理 81
5.3 異常值檢測與處理 84
5.3.1 異常值的檢測 85
5.3.2 異常值的處理 86
5.4 金融數據的處理實戰 87
5.4.1 讀取上證指數數據 87
5.4.2 提取特定日期數據 88
5.4.3 填充非交易日數據 89
5.5 小結與課後練習 90
第6章 Matplotlib數據可視化 91
6.1 圖形參數設定 91
6.1.1 設定圖形線條 91
6.1.2 設定圖形坐標軸 94
6.1.3 設定圖形圖例 97
6.2 繪圖參數檔案及主要函式 99
6.2.1 修改繪圖參數檔案 99
6.2.2 主要繪圖函式簡介 100
6.2.3 繪圖函式套用案例——分析某企業2020年銷售額增長情況 101
6.3 Matplotlib圖形整合 102
6.3.1 subplot函式 103
6.3.2 subplots函式 104
6.3.3 圖形整合實戰——分析2020年某企業產品銷售的區域差異性 105
6.4 Matplotlib可視化案例 107
6.4.1 商品區域銷售額條形圖 107
6.4.2 商品每周利潤率折線圖 110
6.4.3 商品利潤貢獻率餅圖 112
6.5 小結與課後練習 114
第7章 Scikit-Learn機器學習 116
7.1 機器學習及其類型 116
7.1.1 機器學習的特點 116
7.1.2 機器學習的分類 117
7.1.3 機器學習的套用 119
7.2 Sklearn機器學習概述 120
7.2.1 Sklearn的基本概念 120
7.2.2 Sklearn的主要算法 121
7.2.3 選擇合適的算法 124
7.3 Sklearn機器學習流程 125
7.3.1 獲取數據 126
7.3.2 預處理數據 126
7.3.3 訓練模型 127
7.3.4 評估模型 128
7.3.5 最佳化模型 128
7.3.6 套用模型 129
7.4 Sklearn自帶的數據集 129
7.4.1 鳶尾花數據集簡介 129
7.4.2 乳腺癌數據集簡介 131
7.4.3 波士頓房價數據集簡介 132
7.4.4 糖尿病數據集簡介 133
7.4.5 手寫數字數據集簡介 134
7.4.6 紅酒數據集簡介 135
7.5 小結與課後練習 136
第8章 監督式機器學習 137
8.1 線性回歸及其案例 137
8.1.1 線性回歸簡介 137
8.1.2 線性回歸的建模 138
8.1.3 汽車價格的預測 141
8.2 邏輯回歸及其案例 145
8.2.1 邏輯回歸簡介 146
8.2.2 邏輯回歸的建模 146
8.2.3 客戶收入的預測 147
8.3 Lasso回歸與Ridge回歸 151
8.3.1 Lasso回歸及案例 151
8.3.2 Ridge回歸及案例 153
8.3.3 兩種回歸的比較 154
8.4 決策樹及其案例 155
8.4.1 決策樹簡介 155
8.4.2 決策樹的建模 158
8.4.3 蘑菇類型的預測 159
8.5 K近鄰算法及其案例 166
8.5.1 K近鄰算法簡介 166
8.5.2 K近鄰算法的建模 166
8.5.3 乳腺癌患者的分類 168
8.6 支持向量機及其案例 169
8.6.1 支持向量機簡介 169
8.6.2 支持向量機的建模 170
8.6.3 乳腺癌患者的分類 172
8.7 小結與課後練習 174
第9章 無監督式機器學習 175
9.1 聚類分析及其案例 175
9.1.1 K均值聚類算法及案例 175
9.1.2 使用手肘法判斷聚類數 180
9.1.3 輪廓係數法判斷聚類數 181
9.2 因子分析及其案例 185
9.2.1 因子分析概述 185
9.2.2 因子分析的建模 186
9.2.3 地區競爭力的因子分析 187
9.3 主成分分析及其案例 193
9.3.1 主成分分析概述 193
9.3.2 主成分分析的建模 194
9.3.3 乳腺癌患者的主成分分析 195
9.4 關聯分析及其案例 198
9.4.1 關聯分析概述 198
9.4.2 關聯分析的建模 199
9.4.3 電商商品購物籃分析 200
9.5 離群點檢測及其案例 203
9.5.1 離群點檢測概述 203
9.5.2 橢圓模型擬合及案例 204
9.5.3 局部離群因子及案例 207
9.6 雙聚類分析及其案例 211
9.6.1 雙聚類分析概述 211
9.6.2 聯合譜聚類及案例 211
9.6.3 譜雙聚類及案例 213
9.7 小結與課後練習 216
第10章 模型評估與調優 217
10.1 機器學習的挑戰 217
10.1.1 訓練樣本的大小 217
10.1.2 數據的不平衡 218
10.1.3 異常值的處理 218
10.1.4 模型的過擬合 219
10.1.5 特徵的選擇 219
10.2 模型的評估方法 219
10.2.1 混淆矩陣及案例 220
10.2.2 模型評估指標及案例 221
10.2.3 ROC曲線及案例 223
10.2.4 AUC及案例 225
10.2.5 R平方及案例 227
10.2.6 殘差及案例 229
10.3 模型的調優方法 231
10.3.1 交叉驗證及案例 231
10.3.2 格線搜尋及案例 233
10.3.3 隨機搜尋及案例 235
10.4 小結與課後練習 236
第11章 Python中文文本分析 237
11.1 中文結巴分詞 237
11.1.1 文本分詞模式 237
11.1.2 自定義停用詞 239
11.2 中文關鍵字提取 240
11.2.1 TF-IDF算法 240
11.2.2 TextRank算法 241
11.3 中文詞向量生成 242
11.3.1 訓練詞向量模型 242
11.3.2 計算文本詞向量 244
11.4 中文情感分析 245
11.4.1 文本情感建模 246
11.4.2 文本情感預測 247
11.5 小結與課後練習 249
附錄A Python 3.10.0及第三方庫安裝 250
附錄B Python常用第三方工具包簡介 254
B.1 數據分析類包 254
B.2 數據可視化類包 255
B.3 機器學習類包 256

相關詞條

熱門詞條

聯絡我們