Scrapy網路爬蟲實戰

內容簡介

隨著大數據分析、大數據計算火熱興起，越來越多的企業發布了數據分析崗位，而數據分析的基礎則是海量的數據。Python中的Scrapy框架就是為了抓取數據而設計的。

作者介紹

東郭大貓，常年從事數據相關的工作，擅長用Python進行數據的爬取、分析和存儲。使用Python超過5年，做過公司內部的數據爬取培訓。

書籍目錄

第1章 Python開發環境的搭建 1

1.1 PYTHON SDK安裝 1

1.1.1 在Windows上安裝Python 1

1.1.2 在Ubuntu上安裝Python 2

1.2 安裝開發工具PYCHARM社區版 3

1.3 安裝開發工具VISUAL STUDIO社區版 5

第2章爬蟲基礎知識 6

2.1 爬蟲原理 6

2.1.1 爬蟲運行基本流程 6

2.1.2 HTTP請求過程 8

2.2 網頁分析方法1：瀏覽器開發人員工具 9

2.2.1 Elements面板 10

2.2.2 Network面板 11

2.3 網頁分析方法2：XPATH語法 14

2.3.1 XPath節點 14

2.3.2 XPath語法 15

2.3.3 XPath軸 17

2.3.4 XPath運算符 19

2.4 網頁分析方法3：CSS選擇語法 19

2.4.1 元素選擇器 20

2.4.2 類選擇器 21

2.4.3 ID選擇器 21

2.4.4 屬性選擇器 21

2.4.5 後代選擇器 21

2.4.6 子元素選擇器 22

2.4.7 相鄰兄弟選擇器 22

2.5 網頁分析方法4：正則表達式 22

2.5.1 提取指定字元 23

2.5.2 預定義字元集 23

2.5.3 數量限定 23

2.5.4 分支匹配 24

2.5.5 分組 24

2.5.6 零寬斷言 24

2.5.7 貪婪模式與非貪婪模式 25

2.5.8 Python中的正則表達式 25

2.6 爬蟲常用類庫1：PYTHON中的HTTP基本庫URLLIB 30

2.6.1 傳送請求 30

2.6.2 使用Cookie 31

2.7 爬蟲常用類庫2：更人性化的第三方庫REQUESTS 33

2.7.1 傳送請求 34

2.7.2 請求頭 35

2.7.3 回響內容 35

2.7.4 回響狀態碼 36

2.7.5 cookies參數 37

2.7.6 重定向與請求歷史 37

2.7.7 逾時 38

2.7.8 設定代理 38

Scrapy網路爬蟲實戰

基本介紹

內容簡介

作者介紹

書籍目錄

相關詞條

熱門詞條