零基礎學Python網路爬蟲案例實戰全流程詳解

作品簡介

網路爬蟲是當今獲取數據不可或缺的重要手段。本書講解了Python爬蟲的進階理論與技術，幫助讀者提升實戰水平。

全書共7章。第1～3章為常見反爬機制的應對手段，主要內容包括Cookie模擬登錄、多種類型的驗證碼

識別、Ajax動態請求破解。第4章為手機App內容爬取。第5章和第6章為Scrapy爬蟲框架套用。第7章為爬蟲雲伺服器部署。

本書適合有一定Python網路爬蟲編程基礎的學生或相關從業人員，以及想要在Python網路爬蟲開發、不同類型的反爬機制應對、爬蟲框架開發、爬蟲雲端部署等方面進階提高的讀者。

作品目錄

作者簡介

前言

本書學習資源

第1章　Cookie模擬登錄

1.1　Cookie模擬登錄的原理

1.1.1　客戶端與服務端

1.1.2　HTTP的無狀態性

1.1.3　Cookie的含義與作用

1.1.4　Session的含義與作用

1.1.5　Cookie與Session的互動

1.2　案例實戰1：模擬登錄淘寶並爬取數據

1.2.1　獲取Cookie模擬登錄淘寶

1.2.2　爬取淘寶商品數據

1.3　案例實戰2：模擬登錄新浪微博並爬取數據

1.3.1　獲取Cookie模擬登錄新浪微博

1.3.2　爬取新浪微博熱搜榜信息

課後習題

第2章　驗證碼反爬的應對

2.1　圖像驗證碼

2.1.1　超級鷹平台註冊

2.1.2　超級鷹Python接口的使用

2.1.3　案例實戰：英文驗證碼和中文驗證碼識別

2.2　計算題驗證碼

2.3　滑塊驗證碼

2.4　滑動拼圖驗證碼

2.4.1　初級版滑動拼圖驗證碼

2.4.2　高級版滑動拼圖驗證碼

2.5　點選驗證碼

2.5.1　本地網頁識別

2.5.2　bilibili點選驗證碼識別初探

2.5.3　bilibili點選驗證碼識別升級：無限嘗試版

課後習題

第3章　Ajax動態請求破解

3.1　Ajax簡介

3.1.1　不同的網頁翻頁方式的對比

3.1.2　Ajax的基本概念與工作原理

3.2　案例實戰1：爬取開源中國部落格頻道

3.2.1　分析Ajax請求

3.2.2　爬取單頁部落格

3.2.3　爬取多頁部落格

3.3　案例實戰2：爬取新浪微博

3.3.1　模擬登錄新浪微博

3.3.2　分析單個微博頁面

零基礎學Python網路爬蟲案例實戰全流程詳解

基本介紹

作品簡介

作品目錄

相關詞條

熱門詞條