Python爬蟲技術——深入理解原理、技術與開發

圖書內容

本書從實戰角度系統講解 Python爬蟲的核心知識點，並通過大量的真實項目讓讀者熟練掌握 Python爬蟲技術。本書用 20多個實戰案例，完美演繹了使用各種技術編寫 Python爬蟲的方式，讀者可以任意組合這些技術，完成非常複雜的爬蟲套用。全書共 20章，分為 5篇。第 1篇基礎知識（第 1、2章），主要包括 Python運行環境的搭建、 HTTP基礎、網頁基礎（ HTML、CSS、JavaScript等）、爬蟲的基本原理、 Session與 Cookie。第 2篇網路庫（第 3～ 6章），主要包括網路庫 urllib、urllib3、requests和 Twisted的核心使用方法，如傳送 HTTP請求、處理逾時、設定 HTTP請求頭、搭建和使用代理、解析連結、 Robots協定等。

定價：89元

印次：1-2

ISBN：9787302535683

圖書目錄

第1篇基礎知識

第1章開發環境配置.2

1.1安裝官方的Python運行環境.2

1.2 配置PATH環境變數.5

1.3安裝AnacondaPython開發環境.6

1.4安裝PyCharm.7

1.5配置PyCharm.8

1.6 小結.10

第 2章爬蟲基礎.11

2.1 HTTP基礎 11

2.1.1 URI和 URL 11

2.1.2 超文本 12

2.1.3 HTTP與 HTTPS . 12

2.1.4 HTTP的請求過程 . 15

2.1.5 請求 17

2.1.6 回響 20

2.2 網頁基礎 23

2.2.1 HTML . 23

2.2.2 CSS 24

2.2.3 CSS選擇器. 25

2.2.4 JavaScript . 27

2.3 爬蟲的基本原理 27

2.3.1 爬蟲的分類 . 27

2.3.2 爬蟲抓取數據的方式和手段 . 28

2.4 Session與 Cookie . 28

2.4.1 靜態頁面和動態頁面 . 29

2.4.2 無狀態 HTTP與 Cookie 30

2.4.3 利用 Session和 Cookie保持狀態 . 30

2.4.4 查看網站的 Cookie 31

2.4.5 HTTP狀態何時會失效 32

CONTENTS 目錄

2.5 實戰案例：抓取所有的網路資源 . 33

2.6 實戰案例：抓取部落格文章列表 . 37

2.7 小結 . 40

Python爬蟲技術——深入理解原理、技術與開發

基本介紹

圖書內容

圖書目錄

相關詞條

熱門詞條