Python網路爬蟲權威指南（第2版）

本書採用簡潔強大的Python 語言，介紹了網頁抓取，並為抓取新式網路中的各種數據類型提供了全面的指導。第一部分重點介紹網頁抓取的基本原理：如何用Python 從網路伺服器請求信息，如何對伺服器的回響進行基本處理，以及如何以自動化手段與網站進行互動。第二部分介紹如何用網路爬蟲測試網站，自動化處理，以及如何通過更多的方式接入網路。

前言　xi

第　一部分創建爬蟲

第　1 章初見網路爬蟲　3

1.1　網路連線　3

1.2　BeautifulSoup 簡介　5

1.2.1　安裝BeautifulSoup　6

1.2.2　運行BeautifulSoup　8

1.2.3　可靠的網路連線以及異常的處理　9

第　2 章複雜HTML 解析　13

2.1　不是一直都要用錘子　13

2.2　再端一碗BeautifulSoup　14

2.2.1　BeautifulSoup 的find() 和find_all()　16

2.2.2　其他BeautifulSoup 對象　18

2.2.3　導航樹　18

2.3　正則表達式　22

2.4　正則表達式和BeautifulSoup　25

2.5　獲取屬性　26

2.6　Lambda 表達式　26

第3　章編寫網路爬蟲　28

3.1　遍歷單個域名　28

3.2　抓取整個網站　32

3.3　在網際網路上抓取　36

第4　章網路爬蟲模型　41

4.1　規劃和定義對象　41

4.2　處理不同的網站布局　45

4.3　結構化爬蟲　49

4.3.1　通過搜尋抓取網站　49

4.3.2　通過連結抓取網站　52

4.3.3　抓取多種類型的頁面　54

4.4　關於網路爬蟲模型的思考　55

第5　章 Scrapy　57

5.1　安裝Scrapy　57

5.2　創建一個簡易爬蟲　59

5.3　帶規則的抓取　60

5.4　創建item　64

5.5　輸出item　66

5.6　item 管線組件　66

5.7　Scrapy 日誌管理　69

5.8　更多資源　70

第6　章存儲數據　71

6.1　媒體檔案　71

6.2　把數據存儲到CSV　74

6.3　MySQL　75

6.3.1　安裝MySQL　76

6.3.2　基本命令　78

6.3.3　與Python 整合　81

6.3.4　資料庫技術與最佳實踐　84

6.3.5　MySQL 里的“六度空間遊戲”　86

6.4　Email　88

第二部分　高級網頁抓取

第7　章讀取文檔　93

7.1　文檔編碼　93

Python網路爬蟲權威指南（第2版）

基本介紹

相關詞條

熱門詞條