實戰Python網路爬蟲

內容簡介

本書從原理到實踐，循序漸進地講述了使用Python開發網路爬蟲的核心技術。全書從邏輯上可分為基礎篇、實戰篇和爬蟲框架篇三部分。基礎篇主要介紹了編寫網路爬蟲所需的基礎知識，包括網站分析、數據抓取、數據清洗和數據入庫。網站分析講述如何使用Chrome和Fiddler抓包工具對網站做全面分析；數據抓取介紹了Python爬蟲模組Urllib和Requests的基礎知識；數據清洗主要介紹字元串操作、正則和BeautifulSoup的使用；數據入庫講述了MySQL和MongoDB的操作，通過ORM框架SQLAlchemy實現數據持久化，進行企業級開發。實戰篇深入講解了分散式爬蟲、爬蟲軟體的開發、12306搶票程式和微博爬取等。框架篇主要講述流行的爬蟲框架Scrapy，並以Scrapy與Selenium、Splash、Redis結合的項目案例，讓讀者深層次了解Scrapy的使用。此外，本書還介紹了爬蟲的上線部署、如何自己動手開發一款爬蟲框架、反爬蟲技術的解決方案等內容。

本書使用Python3.X編寫，技術先進，項目豐富，適合欲從事爬蟲工程師和數據分析師崗位的初學者、大學生和研究生使用，也很適合有一些網路爬蟲編寫經驗，但希望更加全面、深入理解Python爬蟲的開發人員使用。

圖書目錄

第1章理解網路爬蟲 1

1.1 爬蟲的定義 1

1.2 爬蟲的類型 2

1.3 爬蟲的原理 2

1.4 爬蟲的搜尋策略 4

1.5 爬蟲的合法性與開發流程 5

1.6 本章小結 6

第2章爬蟲開發基礎 7

2.1 HTTP與HTTPS 7

2.2 請求頭 9

2.3 Cookies 10

2.4 HTML 11

2.5 JavaScript 12

2.6 JSON 14

2.7 Ajax 14

2.8 本章小結 15

第3章 Chrome分析網站 16

3.1 Chrome開發工具 16

3.2 Elements標籤 17

3.3 Network標籤 18

3.4 分析QQ音樂 20

3.5 本章小結 23

第4章 Fiddler抓包 24

4.1 Fiddler介紹 24

4.2 Fiddler安裝配置 24

4.3 Fiddler抓取手機套用 26

4.4 Toolbar工具列 29

4.5 Web Session列表 30

4.6 View選項視圖 32

4.7 Quickexec命令行 33

4.8 本章小結 34

第5章爬蟲庫Urllib 35

5.1 Urllib簡介 35

5.2 傳送請求 36

5.3 複雜的請求 37

5.4 代理IP 38

實戰Python網路爬蟲

基本介紹

內容簡介

圖書目錄

相關詞條

熱門詞條