精通Python爬蟲框架Scrapy

內容簡介

Scrapy是使用Python開發的一個快速、高層次的螢幕抓取和Web抓取框架，用於抓Web站點並從頁面中提取結構化的數據。《精通Python爬蟲框架Scrapy》以Scrapy 1.0版本為基礎，講解了Scrapy的基礎知識，以及如何使用Python和三方API提取、整理數據，以滿足自己的需求。

本書共11章，其內容涵蓋了Scrapy基礎知識，理解HTML和XPath，安裝Scrapy並爬取一個網站，使用爬蟲填充資料庫並輸出到移動套用中，爬蟲的強大功能，將爬虫部署到Scrapinghub雲伺服器，Scrapy的配置與管理，Scrapy編程，管道秘訣，理解Scrapy性能，使用Scrapyd與實時分析進行分散式爬取。本書附錄還提供了各種軟體的安裝與故障排除等內容。

本書適合軟體開發人員、數據科學家，以及對自然語言處理和機器學習感興趣的人閱讀。

圖書目錄

第 1章 Scrapy簡介 1

1.1 初識Scrapy 1

1.2 喜歡Scrapy的更多理由 2

1.3 關於本書：目標和用途 3

1.4 掌握自動化數據爬取的重要性 4

1.4.1 開發健壯且高質量的套用，並提供合理規劃 4

1.4.2 快速開發高質量可行產品 5

1.4.3 Google不會使用表單，爬取才能擴大規模 6

1.4.4 發現並融入你的生態系統 7

1.5 在充滿爬蟲的世界裡做一個好公民 7

1.6 Scrapy不是什麼 8

1.7 本章小結 9

第 2章理解HTML和XPath 10

2.1 HTML、DOM樹表示以及XPath 10

2.1.1 URL 11

2.1.2 HTML文檔 11

2.1.3 樹表示法 13

2.1.4 你會在螢幕上看到什麼 14

2.2 使用XPath選擇HTML元素 15

2.2.1 有用的XPath表達式 16

2.2.2 使用Chrome獲取XPath表達式 19

2.2.3 常見任務示例 20

2.2.4 預見變化 21

2.3 本章小結 22

第3章爬蟲基礎 23

3.1 安裝Scrapy 24

3.1.1 MacOS 24

3.1.2 Windows 25

3.1.3 Linux 25

3.1.4 新源碼安裝 26

3.1.5 升級Scrapy 26

3.1.6 Vagrant：本書中運行示例的官方方式 27

精通Python爬蟲框架Scrapy

基本介紹

內容簡介

圖書目錄

相關詞條

熱門詞條