精通Scrapy網路爬蟲

內容簡介

本書深入系統地介紹了Python流行框架Scrapy的相關技術及使用技巧。全書共14章，從邏輯上可分為基礎篇和高級篇兩部分，基礎篇重點介紹Scrapy的核心元素，如spider、selector、item、link等；高級篇講解爬蟲的高級話題，如登錄認證、檔案下載、執行JavaScript、動態網頁爬取、使用HTTP代理、分散式爬蟲的編寫等，並配合項目案例講解，包括供練習使用的網站，以及京東、知乎、豆瓣、360爬蟲案例等。本書案例豐富，注重實踐，代碼注釋詳盡，適合有一定Python語言基礎，想學習編寫複雜網路爬蟲的讀者使用。

圖書目錄

第1章初識Scrapy1

1.1網路爬蟲是什麼1

1.2Scrapy簡介及安裝2

1.3編寫第一個Scrapy爬蟲3

1.3.1項目需求4

1.3.2創建項目4

1.3.3分析頁面5

1.3.4實現Spider6

1.3.5運行爬蟲8

1.4本章小結11

第2章編寫Spider12

2.1Scrapy框架結構及工作原理12

2.2Request和Response對象14

2.2.1Request對象15

2.2.2Response對象16

2.3Spider開發流程18

2.3.1繼承scrapy.Spider19

2.3.2為Spider命名20

2.3.3設定起始爬取點20

2.3.4實現頁面解析函式22

2.4本章小結22

第3章使用Selector提取數據23

3.1Selector對象23

3.1.1創建對象24

3.1.2選中數據25

3.1.3提取數據26

3.2Response內置Selector28

3.3XPath29

3.3.1基礎語法30

3.3.2常用函式35

3.4CSS選擇器36

3.5本章小結40

第4章使用Item封裝數據41

4.1Item和Field42

4.2拓展Item子類44

4.3Field元數據44

4.4本章小結47

第5章使用ItemPipeline處理數據48

5.1ItemPipeline48

5.1.1實現ItemPipeline49

5.1.2啟用ItemPipeline50

5.2更多例子51

5.2.1過濾重複數據51

5.2.2將數據存入

MongoDB54

5.3本章小結57

第6章使用LinkExtractor提取連結58

精通Scrapy網路爬蟲

基本介紹

內容簡介

圖書目錄

相關詞條

熱門詞條