《Python數據分析入門——從數據獲取到可視化》是2018年3月電子工業出版社出版的圖書,作者是沈祥壯。
基本介紹
- 書名:Python數據分析入門——從數據獲取到可視化
- 作者:沈祥壯
- ISBN:9787121336539
- 頁數:260頁
- 定價:59元
- 出版社:電子工業出版社
- 出版時間:2018年3月
- 開本:16開
內容簡介,圖書目錄,
內容簡介
本書作為數據分析的入門圖書,以Python語言為基礎,介紹了數據分析的整個流程。本書內容涵蓋數據的背立嚷獲取(即網路爬蟲程式的設計)、前期數據的清洗和處理、運用機器學習算法進行建模分析,以及使用可視化的方法展示數據及結果。首先,書中不會涉及過於高級的語法,不過還是希望讀者有一定的語法基礎,這樣可以更好地理解本書的內容。其次,本書重點在於套用Python來完成一些數據分故勸承析和數據處理的工作,即如何使用Python來完成工作而非專注於Python語言語法等原理的講解。本書的目的是讓初學者不論對數據分析流程本身還是Python語言,都能有一個十分直觀的感受,為以微地精後的深入學習打下基礎。最後,讀者不必須按順序通讀本書,因為各個章節層次比較分明,可以根據興趣或者需要來自行安排。例如第5章介紹了一些實戰的小項目,有趣且難度不大,大家可以在學習前面內容之餘來閱讀這部坑汽采分內容。
圖書目錄
1 準備 1
1.1 開發環境搭建 2
1.1.1 在Ubuntu系統下搭建Python集成開發環境 2
1.1.2 在Windows系統下搭建Python集成開發環境 13
1.1.3 三種安裝第三方庫的方法 16
1.2 Python基礎語法介紹 19
1.2.1 if__name__=='__main__' 20
1.2.2 列表解析式 22
1.2.3 裝飾器 23
1.2.4 遞歸函式 26
1.2.5 面向對象 27
1.3 The Zen of Python 28
參考文獻 30
2 數據的獲取 31
2.1 爬蟲簡介 31
2.2 數據抓取實踐 33
2.2.1 請求網頁數據 33
2.2.2 網頁解析 38
2.2.3 數據的存儲 46
2.3 爬蟲進階 50
2.3.1 異常微境府旬處理 50
2.3.2 robots.txt 58
2.3.3 動態UA 60
2.3.4 代理IP 61
2.3.5 編碼檢測 61
2.3.6 正則表達式入門 63
2.3.7 模擬登錄 69
2.3.8 驗證碼問題 74
2.3.9 動態載入內容的獲取 84
2.3.10 多執行緒與多進程 93
2.4 爬蟲總結 101
參考文獻 102
3 數據的存取與清洗 103
3.1 數據存取 103
3.1.1 基本檔案操作 103
3.1.2 CSV檔案的存取 111
3.1.3 JSON檔案的存取 116
3.1.4 XLSX檔案的存取 121
3.1.5 MySQL資料庫檔案的存取 137
3.2 NumPy 145
3.2.1 NumPy簡介 145
3.2.2 NumPy基本操作 146
3.3 pandas 158
3.3.1 pandas簡介 158
3.3.2 Series與幾才船芝DataFrame的使用 159
3.3.3 布爾值數組與函式套用 169
3.4 數據的清洗 174
3.4.1 編碼問題 174
3.4.2 缺失值的檢測與處理 175
3.4.3 去除異常值 181
3.4.4 去除重複值與冗餘信息 183
3.4.5 注意事項去匪 185
參考文獻 187
4 數據的分析及可視化 188
4.1 探索性數據分析 189
4.1.1 基本流程 189
4.1.2 數據降維 197
4.2 機器學習入門 199
4.2.1 機器學習簡介 200
4.2.2 決策樹——機器學習算法的套用 202
4.3 手動實現KNN算法 205
4.3.1 特例——最鄰近分類器 205
4.3.2 KNN算法的完整實現 213
4.4 數據可視化 215
4.4.1 高質量作圖工具——matplotlib 215
4.4.2 快速作圖工具——pandas與matplotlib 223
4.4.3 簡捷作圖工具——seaborn與matplotlib 226
4.4.4 詞雲圖 230
參考文獻 232
5 Python與生活 234
5.1 定製一個新聞提醒服務 234
5.1.1 新聞數據的抓取 235
5.1.2 實現郵件傳送功能 237
5.1.3 定時執行及本地日誌記錄 239
5.2 Python與數學 241
5.2.1 估計π值 242
5.2.2 三門問題 245
5.2.3 解決LP與QP問題(選讀) 247
5.3 QQ群聊天記錄數據分析 251
參考文獻 256
3.1.5 MySQL資料庫檔案的存取 137
3.2 NumPy 145
3.2.1 NumPy簡介 145
3.2.2 NumPy基本操作 146
3.3 pandas 158
3.3.1 pandas簡介 158
3.3.2 Series與DataFrame的使用 159
3.3.3 布爾值數組與函式套用 169
3.4 數據的清洗 174
3.4.1 編碼問題 174
3.4.2 缺失值的檢測與處理 175
3.4.3 去除異常值 181
3.4.4 去除重複值與冗餘信息 183
3.4.5 注意事項 185
參考文獻 187
4 數據的分析及可視化 188
4.1 探索性數據分析 189
4.1.1 基本流程 189
4.1.2 數據降維 197
4.2 機器學習入門 199
4.2.1 機器學習簡介 200
4.2.2 決策樹——機器學習算法的套用 202
4.3 手動實現KNN算法 205
4.3.1 特例——最鄰近分類器 205
4.3.2 KNN算法的完整實現 213
4.4 數據可視化 215
4.4.1 高質量作圖工具——matplotlib 215
4.4.2 快速作圖工具——pandas與matplotlib 223
4.4.3 簡捷作圖工具——seaborn與matplotlib 226
4.4.4 詞雲圖 230
參考文獻 232
5 Python與生活 234
5.1 定製一個新聞提醒服務 234
5.1.1 新聞數據的抓取 235
5.1.2 實現郵件傳送功能 237
5.1.3 定時執行及本地日誌記錄 239
5.2 Python與數學 241
5.2.1 估計π值 242
5.2.2 三門問題 245
5.2.3 解決LP與QP問題(選讀) 247
5.3 QQ群聊天記錄數據分析 251
參考文獻 256