網路數據爬取與分析實務

內容簡介

本書按照網路數據爬取、數據清洗與處理、數據存儲、數據分析的邏輯脈絡，介紹了數據科學的相關知識。

全書主要內容涉及理論、實戰、工具三個層面。其中，理論層面主要介紹了網路爬蟲，數據處理與存道廈墓照儲，機器學習的相關概念、原理與算法；實戰層面主要通過影評、二手房、招聘網站等實戰項目，闡述了數據爬取、處理與存儲的代碼實現，並通過相關數據集的實例，介紹了機器學習算法的實現與效果評估；工具層面主要講解了如何通過Python的Urllib、Request、BeautifulSoup、Pandas、Scikit-learn等第三方工具包實現數據的爬取、處理與分析，以及通過SQLite這一輕量級資料庫工具實現數據的存儲。

圖書目錄

第1章數據科學概述

1.1什麼是數據科學

1.2數據分析師、數據工程師與數據科學家

第2章Python語法基礎

2.1 Python的程式結構

2.2 Python編碼規範

2.3 Python編程環境的搭建

2.4 Python的數據結構

2.5 Python控制語句

習題

第3章使用Urllib庫編寫爬蟲

3.1 網路爬蟲概述

3.2 使用Urllib.request模組編寫爬蟲

3.3 修改User-Agent屬性模擬瀏覽器訪問

3.4 HTTP協定詳解

3.5 模擬HTTP-GET方法的爬蟲

3.6 模擬HTTP-POST方法的爬蟲

習題

第4章使用正則表達式提取數據

4.1 正則表達式原理

4.2 正則表達式語法

4.3 re模組常用的函式糠埋探旋

4.4 正則表達式套用實例

習題

第5章使用BeautifulSoup庫提取數據

5.1 BeautifulSoup包簡介

5.2 BeautifulSoup的信息提取

5.3 BeautifulSoup的遍歷

習題

第6章爬蟲項目實戰

6.1網易新聞中心爬蟲

6.2 通過Session模擬登錄豆瓣

6.3 鏈家二手房信息爬蟲

6.4爬取拉勾網JSON格式數據

習題

第7章 Pandas數據處理基礎

7.1數據處理概述

7.2 Pandas數料刪組據結構

7.3 DataFrame的基本操作

7.4 DataFrame數據的連線

7.4 Pandas數據輸入輸出

習題

第8章 Pandas數據處理常用方法

8.1 分組統計與轉換

8.2 缺失值處理

8.3 時間序列數據處理

8.4 向量轉換

習題

第9章數據處理實戰

9.1二手房數據處理

9.2 職位數據處理

9.3 職位描述的文本信息處理

習題

第10章 SQLite資料庫操作

10.1 SQLite資料庫簡介

10.2 Python讀寫乎盼霸SQLite

10.3 Pandas讀寫SQLite

習題

第11章機器學習概述

11.1 認識機器學習

11.2 機器學習的套用範圍

11.3 機器學習的算法

11.4 Scikit-learn機器學習包

習題

第12章從線性回歸到分類

12.1線性回歸算法

12.2 邏輯回歸分類算法

習題

第13章分類模型及套用

13.1 K近鄰分婚籃夜類算法

13.2 決策樹分類算法

13.3 隨機森林分類算法酷舉

習題

第14章分類模型的評估

14.1訓練與測再匪鞏試樣本

14.2 性能評價指標

14.3分類閾值的調整

習題

參考文獻

網路數據爬取與分析實務

基本介紹

內容簡介

圖書目錄

相關詞條

熱門詞條