Python網路爬蟲技術

Python網路爬蟲技術

《Python網路爬蟲技術》是2019年12月人民郵電出版社出版的圖書,作者是江吉彬、張良均。

基本介紹

  • 書名:Python網路爬蟲技術
  • 作者:江吉彬、張良均
  • 出版社:人民郵電出版社
  • 出版時間:2019年12月
  • 頁數:165 頁
  • 定價:39.8 元
  • 開本:16 開
  • 裝幀:平裝
  • ISBN:9787115505064
內容簡介,圖書目錄,

內容簡介

本書以任務為導向,較為全面地介紹了不同場景下Python爬取網路數據的方法,包括靜態網頁、動態網頁、登錄後才能訪問的網頁、PC客戶端、App等場景。全書共7章,第1章介紹了爬蟲與反爬蟲的基本概念,以及Python爬蟲環境的配置,第2章介紹了爬取過程中涉及的網頁前端基礎,第3章介紹了在靜態網頁中爬取數據的過程,第4章介紹了在動態網頁中爬取數據的過程,第5章介紹了對登錄後才能訪問的網頁進行模擬登錄的方法,第6章介紹了爬取PC客戶端、App的數據的方法,第7章介紹了使用Scrapy爬蟲框架爬取數據的過程。本書所有章節都包含了實訓與課後習題,通過練習和操作實戰,可幫助讀者鞏固所學的內容。

圖書目錄

第 1章 Python爬蟲環境與爬蟲簡介 1
任務1.1 認識爬蟲 1
1.1.1 爬蟲的概念 1
1.1.2 爬蟲的原理 2
1.1.3 爬蟲的合法性與robot.txt協定 4
任務1.2 認識反爬蟲 4
1.2.1 網站反爬蟲的目的與手段 4
1.2.2 爬取策略制定 5
任務1.3 配置Python爬蟲環境 6
1.3.1 Python爬蟲相關庫介紹與配置 7
1.3.2 配置MySQL資料庫 7
1.3.3 配置MongoDB資料庫 16
小結 20
實訓 Python爬蟲環境配置 21
課後習題 21
第 2章 網頁前端基礎 23
任務2.1 認識Python網路編程 23
2.1.1 了解Python網路編程Socket庫 24
2.1.2 使用Socket庫進行TCP編程 26
2.1.3 使用Socket庫進行UDP編程 28
任務2.2 認識HTTP 29
2.2.1 熟悉HTTP請求方法與過程 30
2.2.2 熟悉常見HTTP狀態碼 32
2.2.3 熟悉HTTP頭部信息 33
2.2.4 熟悉Cookie 39
小結 41
實訓 使用Socket庫連線百度首頁 41
課後習題 42
第3章 簡單靜態網頁爬取 43
任務3.1 實現HTTP請求 43
3.1.1 使用urllib 3庫實現 44
3.1.2 使用Requests庫實現 47
任務3.2 解析網頁 52
3.2.1 使用Chrome開發者工具查看網頁 52
3.2.2 使用正則表達式解析網頁 58
3.2.3 使用Xpath解析網頁 61
3.2.4 使用Beautiful Soup庫解析網頁 66
任務3.3 數據存儲 74
3.3.1 將數據存儲為JSON檔案 74
3.3.2 將數據存儲到MySQL資料庫 75
小結 78
實訓 79
實訓1 生成GET請求並獲取指定網頁內容 79
實訓2 搜尋目標節點並提取文本內容 79
實訓3 在資料庫中建立新表並導入數據 80
課後習題 80
第4章 常規動態網頁爬取 82
任務4.1 逆向分析爬取動態網頁 82
4.1.1 了解靜態網頁和動態網頁的區別 82
4.1.2 逆向分析爬取動態網頁 85
任務4.2 使用Selenium庫爬取動態網頁 88
4.2.1 安裝Selenium庫及下載瀏覽器補丁 88
4.2.2 打開瀏覽對象並訪問頁面 89
4.2.3 頁面等待 90
4.2.4 頁面操作 91
4.2.5 元素選取 93
4.2.6 預期條件 96
任務4.3 存儲數據至MongoDB資料庫 98
4.3.1 了解MongoDB資料庫和MySQL資料庫的區別 99
4.3.2 將數據存儲到MongoDB資料庫 100
小結 103
實訓 103
實訓1 爬取網頁XXX的推薦圖書信息 103
實訓2 爬取某網頁的Java圖書信息 104
實訓3 將數據存儲到MongoDB資料庫中 104
課後習題 104
第5章 模擬登錄 106
任務5.1 使用表單登錄方法實現模擬登錄 106
5.1.1 查找提交入口 106
5.1.2 查找並獲取需要提交的表單數據 108
5.1.3 使用POST請求方法登錄 112
任務5.2 使用Cookie登錄方法實現模擬登錄 114
5.2.1 使用瀏覽器Cookie登錄 115
5.2.2 基於表單登錄的Cookie登錄 117
小結 119
實訓 119
實訓1 使用表單登錄方法模擬登錄數睿思論壇 119
實訓2 使用瀏覽器Cookie模擬登錄數睿思論壇 120
實訓3 基於表單登錄後的Cookie模擬登錄數睿思論壇 120
課後習題 120
第6章 終端協定分析 122
任務6.1 分析PC客戶端抓包 122
6.1.1 了解HTTP Analyzer工具 122
6.1.2 爬取千千音樂PC客戶端數據 125
任務6.2 分析App抓包 126
6.2.1 了解Fiddler工具 127
6.2.2 分析人民日報App 130
小結 132
實訓 133
實訓1 抓取千千音樂PC客戶端的推薦歌曲信息 133
實訓2 爬取人民日報App的旅遊模組信息 134
課後習題 134
第7章 Scrapy爬蟲 135
任務7.1 認識Scarpy 135
7.1.1 了解Scrapy爬蟲的框架 135
7.1.2 熟悉Scrapy的常用命令 137
任務7.2 通過Scrapy爬取文本信息 138
7.2.1 創建Scrapy爬蟲項目 138
7.2.2 修改items/pipelines腳本 140
7.2.3 編寫spider腳本 143
7.2.4 修改settings腳本 148
任務7.3 定製中間件 152
7.3.1 定製下載器中間件 152
7.3.2 定製Spider中間件 156
小結 157
實訓 157
實訓1 爬取XXX的所有新聞動態 157
實訓2 定製BdRaceNews爬蟲項目的中間件 158
課後習題 158
附錄A 160
附錄B 163
參考文獻 166

相關詞條

熱門詞條

聯絡我們