用Python寫網路爬蟲（第2版）

內容簡介

《用Python寫網路爬蟲（第 2版》講解了如何使用Python來編寫網路爬蟲程式，內容包括網路爬蟲簡介，從頁面中抓取數據的3種方法，提取快取中的數據，使用多個執行緒和進程進行並發抓取，抓取動態頁面中的內容，與表單進行互動，處理頁面中的驗證碼問題，以及使用Scarpy和Portia進行數據抓取，並在最後介紹了使用本書講解的數據抓取技術對幾個真實的網站進行抓取的實例，旨在幫助讀者活學活用書中介紹的技術。

《用Python寫網路爬蟲（第 2版》適合有一定Python編程經驗而且對爬蟲技術感興趣的讀者閱讀。

圖書目錄

第 1章　網路爬蟲簡介 1

1.1　網路爬蟲何時有用　1

1.2　網路爬蟲是否合法　2

1.3　Python 3　3

1.4　背景調研　4

1.4.1　檢查robots.txt　4

1.4.2　檢查網站地圖　5

1.4.3　估算網站大小　6

1.4.4　識別網站所用技術　7

1.4.5　尋找網站所有者　9

1.5　編寫第一個網路爬蟲　11

1.5.1　抓取與爬取的對比　11

1.5.2　下載網頁　12

1.5.3　網站地圖爬蟲　15

1.5.4　ID遍歷爬蟲　17

1.5.5　連結爬蟲　19

1.5.6　使用requests庫　28

1.6　本章小結　30

第　2章數據抓取　31

2.1　分析網頁　32

2.2　3種網頁抓取方法　34

2.2.1　正則表達式　35

2.2.2　Beautiful Soup　37

2.2.3　Lxml　39

2.3　CSS選擇器和瀏覽器控制台　41

2.4　XPath選擇器　43

2.5　LXML和家族樹　46

2.6　性能對比　47

2.7　抓取結果　49

2.7.1　抓取總結　50

2.7.2　為連結爬蟲添加抓取回調　51

2.8　本章小結　55

第3章　下載快取　56

3.1　何時使用快取　57

3.2　為連結爬蟲添加快取支持　57

3.3　磁碟快取　60

3.3.1　實現磁碟快取　62

3.3.2　快取測試　64

3.3.3　節省磁碟空間　65

3.3.4　清理過期數據　66

3.3.5　磁碟快取缺點　68

3.4　鍵值對存儲快取　69

3.4.1　鍵值對存儲是什麼　69

3.4.2　安裝Redis　70

3.4.3　Redis概述　71

3.4.4　Redis快取實現　72

3.4.5　壓縮　74

3.4.6　測試快取　75

3.4.7　探索requests-cache　76

3.5　本章小結　78

第4章　並發下載　79

用Python寫網路爬蟲（第2版）

基本介紹

內容簡介

圖書目錄

相關詞條

熱門詞條