中公python高效開發指南python網路爬蟲綜合開發

內容簡介

本書面向Python網路爬蟲開發的初學者，按照由淺入深、循序漸進的規律，從講解網路爬蟲開發基礎知識，到講解如何開發單個.py檔案的Python爬蟲程式，後講解基於Scrapy爬蟲框架的網路爬蟲開發。

● 網路爬蟲概述（章）

介紹了網路爬蟲的基礎知識，包括定義、分類、原理和搜尋策略等概念性內容。

● Python網路爬蟲開發基礎（第二章）

介紹了Python開發環境的搭建，重點介紹了PyCharm的使用。另外，還詳細介紹了HTTP協定的相關知識，並介紹了HTML、JavaScript和XPath。

● 開發單個.py檔案的爬蟲程式（第三章、第四章）

介紹了如何開發單個.py檔案的Python爬蟲程式，該程式採用Request模組獲取數據，並採用XPath、BeautifulSoup4和PyQuery模組進行解析。

● 開發Python網路爬蟲相關技術（第五章至第十章）

介紹了Python網路爬蟲開發中廣泛套用的技術，包括正則表達式、數據接口、資料庫的使用、表單的使用、模擬登錄、反反爬蟲方法和Selenium模擬瀏覽器等，並結合豐富的小案例來展示知識點。

● Scrapy爬蟲框架（第十一章、第十二章）

介紹了基於Scrapy爬蟲框架的爬蟲開發和分散式爬蟲框架scrapy-redis，以及爬蟲的部署。

第一章網路爬蟲概述1

1.1網路爬蟲的定義1

1.2網路爬蟲的發展階段1

1.3網路爬蟲的套用1

1.4網路爬蟲的類型2

1.5網路爬蟲的原理3

1.6網路爬蟲的搜尋策略3

1.6.1深度優先搜尋策略4

1.6.2廣度優先搜尋策略4

1.7反爬蟲技術及解決方案5

1.7.1通過User-Agent來反爬蟲5

1.7.2通過IP限制來反爬蟲6

1.7.3通過JavaScript腳本來反爬蟲7

1.7.4通過robots.txt來反爬蟲7

第二章爬蟲開發基礎8

2.1Python的安裝和運行8

2.1.1Python的安裝8

2.1.2編寫個Python程式12

2.2PyCharm開發工具的安裝和使用12

2.3HTTP18

2.3.1URI和URL18

2.3.2HTTP和HTTPS18

2.3.3HTTP請求報文18

2.3.4HTTP請求過程20

2.3.5HTTP請求方法21

2.3.6HTTP回響報文21

2.4HTTP會話和Cookies23