《基於python的web大數據爬取實戰指南》是2019年科學出版社出版的圖書,作者是夏換、楊秀璋、於小民。
基本介紹
- 書名:基於python的web大數據爬取實戰指南
- 作者:夏換
楊秀璋
於小民 - 出版社:科學出版社
- 出版時間:2019年3月1日
- ISBN:9787030606372
內容簡介,目錄,
內容簡介
《基於python的web大數據爬取實戰指南》主要研究基於Python的Web大數據爬取,採用Python語言實現。《基於python的web大數據爬取實戰指南》貫穿各種爬蟲算法與案例進行講解,是一本典型的實戰指南。內容涵蓋基礎知識和數據爬取兩大部分,涉及網路爬蟲入門、Python基礎、HTML基礎、正則表達式、Selenium技術、網頁自動登錄和資料庫存儲等知識。《基於python的web大數據爬取實戰指南》結合實例詳細講解了Python網路爬蟲的各種技術,抓取線上百科、技術部落格、新浪微博、游迅網、生物醫學網等的信息,構思合理,從基礎知識到案例代碼,由淺入深地將知識分享給讀者。《基於python的web大數據爬取實戰指南》符合國家大數據發展戰略,有利於推動各地區的大數據發展,為底層大數據挖掘技術做出貢獻。
目錄
目錄
第一部分 基礎知識
第1章 概述 3
1.1 Web大數據爬取 3
1.2 各章概要 5
1.3 如何閱讀本書 6
第2章 Python基礎知識 8
2.1 Python語言簡介 8
2.2 Python安裝過程 9
2.3 Python基礎知識 14
2.4 條件語句和循環語句 29
2.5 字元串操作 37
2.6 檔案操作 43
2.7 局部變數、全局變數與導入塊變數 48
2.8 多執行緒編程 52
第3章 HTML基礎知識及DOM樹結構 56
3.1 瀏覽器顯示HTML原始碼 58
3.2 HTML語法規則 61
3.3 HTML DOM樹型結構 71
3.4 XPath技術 74
第4章 XML基礎知識 76
4.1 基礎知識 76
4.2 XML文檔示例 78
4.3 XML語法規則 81
4.4 XML基本用法 84
4.5 Python處理XML數據 89
第二部分 基於Python的數據爬取
第5章 Python網頁爬蟲的相關介紹 97
5.1 概述 97
5.2 正則表達式 98
5.3 Selenium 99
5.4 BeautifuISoup 100
5.5 Scrapy 100
5.6 數據存儲技術 104
第6章 基於正則表達式的Web爬蟲 107
6.1 正則表達式 107
6.2 常用的網頁爬取正則表達式 117
6.3 Python爬蟲常用函式 128
6.4 案例分析1:使用正則表達式獲取新浪部落格文章 141
6.5 案例分析2:使用正則表達式爬取百科知識 147
第7章 基於Selenium的Web爬蟲 162
7.1 Selenium安裝過程 163
7.2 Selenium常見元素定位方法和操作 170
7.3 案例分析1:Selenium爬取百科知識 182
7.4 案例分析2:Selenium爬取PubMed生物醫學摘要信息 186
7.5 案例分析3:Selenium爬取圖片 193
第8章 基於Selenium的自動登錄爬蟲 201
8.1 Python自動登錄技術 201
8.2 新浪微博介紹 206
8.3 案例分析1:Selenium自動登錄163信箱 209
8.4 案例分析2:Selenium自動登錄爬取新浪微博知識 213
第9章 基於BeautifuISoup的Web爬蟲 228
9.1 概述及安裝 228
9.2 BeautifuISoup具體用法 231
第10章 資料庫存儲技術 244
10.1 資料庫存儲的基本技術 244
10.2 MySQL資料庫知識 245
10.3 Python資料庫知識 253
10.4 案例分析:Selenium爬取數據並存儲至資料庫中 262