Python網路爬蟲框架Scrapy從入門到精通

Python網路爬蟲框架Scrapy從入門到精通

《Python網路爬蟲框架Scrapy從入門到精通》是北京大學出版社出版圖書。

基本介紹

  • 中文名:Python網路爬蟲框架Scrapy從入門到精通
  • 作者:張穎 著 
  • 出版時間:2021年3月1日
  • 出版社:北京大學出版社
  • 頁數:292 頁
  • ISBN:9787301320228
  • 開本:16 開
  • 裝幀:平裝
  • 版次:1
  • 商品編碼:13174852
  • 用紙:膠版紙
  • 字數:414000
內容簡介,目錄,

內容簡介

本書從Python主流框架Scrapy的簡介及網路爬蟲知識講起,逐步深入到Scrapy進階實戰。本書從實戰出發,根據不同需求,有針對性地講解了靜態網頁、動態網頁、App套用是如何爬取所需數據,以及Scrapy是如何部署分散式爬取,最後還介紹了用Scrapy + Pandas是如何進行數據分析及數據展示,讓讀者不但可以系統地學習Scrapy編程的相關知識,而且還能對Scrapy套用開發有更為深入的理解。
本書分為12章,涵蓋的主要內容有Scrapy框架簡介;Scrapy網路爬蟲知識介紹;Scrapy開發環境的搭建;Scrapy架構及編程;Scrapy進階;實戰項目:Scrapy靜態網頁的爬取;實戰項目:Scrapy動態網頁的爬取;實戰項目:Scrapy爬取App套用數據;Scrapy的分散式部署與爬取;分散式的實戰項目;用Selenium框架測試網站;用Scrapy + Pandas進行數據分析。
本書內容通俗易懂,實例典型,實用性強,特別適合學習Python主流框架Scrapy的入門讀者和進階讀者閱讀,也適合數據分析與挖掘技術的初學者閱讀,還適合相關培訓機構的師生閱讀。

目錄

第1章 Scrapy框架簡介
1.1 Scrapy簡介 2
1.2 關於本書:目標和用途 2
1.3 進行自動化數據爬取的重要性 3
1.4 掌握自動化測試的重要性 3
1.5 合理規劃,開發高質量的套用 4
1.6 網路數據的採集法律與道德約束 5
1.7 本章小結 5
第2章 Scrapy網路爬蟲知識介紹
2.1 爬蟲的作用 7
2.2 爬蟲必備的前端知識 9
2.3 爬蟲經常用的Python語法 26
2.4 本章小結 44
第3章 Scrapy開發環境的搭建
3.1 安裝Python 47
3.2 資料庫的安裝 50
3.3 安裝Scrapy 56
3.4 本章小結 60
第4章 Scrapy架構及編程
4.1 Scrapy架構及目錄源碼分析 62
4.2 Scrapy項目的創建和管理 67
4.3 PyCharm如何調試Scrapy 72
4.4 Scrapy的組件 77
4.5 Scrapy的數據流 78
4.6 數據存儲 78
4.7 Scrapy如何定義中間件 80
4.8 Scrapy其他方法的使用 82
4.9 本章小結 83
第5章 Scrapy進階
5.1 理解Scrapy性能 85
5.2 編寫Spider的邏輯 93
5.3 Item和Pipeline 95
5.4 資料庫存儲 98
5.5 Scrapy集成隨機User-Agent和代理IP 100
5.6 突破反爬技術 102
5.7 圖片和檔案下載 103
5.8 如何部署爬蟲 108
5.9 計畫定時爬取 111
5.10 本章小結 112
第6章 實戰項目:Scrapy靜態網頁的爬取
6.1 採集需求及網頁分析 114
6.2 數據表的設計 115
6.3 獲取和解析列表、詳情頁 115
6.4 數據存儲 117
6.5 數據的導出和展示 119
6.6 本章小結 121
第7章 實戰項目:Scrapy動態網頁的爬取
7.1 採集需求及網頁分析 123
7.2 Selenium的安裝和使用 124
7.3 解析網頁及代碼的實現 126
7.4 數據的存儲 128
7.5 數據的導出 130
7.6 本章小結 133
第8章 實戰項目:Scrapy爬取App套用數據
8.1 搭建開發環境 135
8.2 移動自動化工具 144
8.3 Appium Desktop工具的錄製功能 147
8.4 App套用數據抓取實戰項目 150
8.5 本章小結 158
第9章 Scrapy的分散式部署與爬取
9.1 分散式系統概述及要點 160
9.2 使用Gerapy管理分散式爬蟲 162
9.3 通過Scrapyd + ScrapydWeb簡單高效地部署和監控分散式爬蟲項目 168
9.4 使用Scrapy-Redis實現分散式爬蟲 174
9.5 本章小結 195
第10章 分散式的實戰項目
10.1 搭建Redis伺服器 197
10.2 創建主項目及配置Scrapy-Redis 197
10.3 創建從項目及配置Scrapy-Redis 200
10.4 部署代理IP池及User-Agent 203
10.5 執行程式 205
10.6 本章小結 206
第11章 用Selenium框架測試網站
11.1 網站測試簡介 208
11.2 用Scrapy + Selenium進行前端自動化測試 208
11.3 本章小結 235
第12章 用Scrapy + Pandas進行數據分析
12.1 Python數據分析概述 237
12.2 NumPy簡介及操作 238
12.3 Matplotlib簡介及操作 247
12.4 Pandas簡介及操作 256
12.5 實戰項目:Scrapy爬取網站並用Pandas進行數據分析 267
12.6 本章小結 284

相關詞條

熱門詞條

聯絡我們