Python網路爬蟲(Scrapy框架)

Python網路爬蟲(Scrapy框架)

《Python網路爬蟲(Scrapy框架)》是2020年1月人民郵電出版社出版的圖書,作者是肖睿、陳磊。

基本介紹

  • 書名:Python網路爬蟲(Scrapy框架)
  • 作者:肖睿、陳磊
  • 出版社:人民郵電出版社
  • 出版時間:2020年1月
  • 定價:45 元
  • 開本:16 開
  • 裝幀:平裝
  • ISBN:9787115527295
內容簡介,圖書目錄,

內容簡介

網際網路上存在著大量值得收集的公共信息,而爬蟲技術就是獲取這些公共信息的主要工具。本書以主流的Scrapy爬蟲框架為例,介紹了Python網路爬蟲的組成、爬蟲框架的使用以及分散式爬蟲等內容。本書運用了大量案例和實踐,融入了含金量十足的開發經驗,使得內容緊密結合實際套用。在此基礎上,本書還通過豐富的練習和操作實踐,幫助讀者鞏固所學的內容。本書配以多元的學習資源和支持服務,包括視頻、案例素材、學習社區等,為讀者提供全方位的學習體驗。
本書適合作為計算機、大數據等相關專業的教材,也適合具有一定Linux或Python開發基礎的人員閱讀,還可以作為爬蟲工程師的學習用書。

圖書目錄

第 1章 使用第三方庫實現信息抓取 1
任務1 使用第三方庫實現北京公交站點頁面信息抓取 2
1.1.1 介紹爬蟲 2
1.1.2 HTTP 5
1.1.3 HTML 9
1.1.4 使用第三方庫實現爬蟲功能 10
1.1.5 技能實訓 14
任務2 使用第三方庫實現北京公交站點詳細信息抓取 14
1.2.1 lxml庫 14
1.2.2 第三方庫數據抓取及保存 17
1.2.3 技能實訓 19
本章小結 19
本章作業 20
第 2章 初探Scrapy爬蟲框架 21
任務1 安裝Scrapy爬蟲框架並創建爬蟲工程 22
2.1.1 根據使用場景劃分爬蟲種類 22
2.1.2 開發基於Scrapy爬蟲框架的工程 25
任務2 學習並掌握Scrapy爬蟲框架各模組的功能 30
2.2.1 Scrapy爬蟲工程組成 30
2.2.2 Scrapy爬蟲框架架構 34
本章小結 36
本章作業 36
第3章 提取網頁數據 37
任務1 使用Scrapy的選擇器提取豆瓣電影信息 38
3.1.1 Response對象 38
3.1.2 css選擇器 42
3.1.3 多層級網頁爬取 44
3.1.4 技能實訓 49
任務2 使用正則表達式從電影介紹詳情中提取指定信息 50
3.2.1 正則表達式 50
3.2.2 技能實訓 55
本章小結 55
本章作業 55
第4章 Scrapy數據保存(檔案、MySQL、MongoDB) 57
任務一 使用Feed exports將爬取的電影信息保存到常見數據格式檔案中 58
4.1.1 Feed exports 58
4.1.2 技能實訓 62
任務2 使用pipeline將爬取的電影信息數據保存到資料庫中 63
4.2.1 Python操作MySQL資料庫 63
4.2.2 pipeline模組 66
4.2.3 將數據保存到MongoDB中 68
4.2.4 技能實訓 73
本章小結 73
本章作業 73
第5章 Scrapy反反爬技術 75
任務1 學習反爬蟲和反反爬蟲策略 76
5.1.1 反爬蟲方法和反反爬蟲策略 76
5.1.2 Scrapy設定實現反反爬 78
5.1.3 技能實訓 85
任務2 學習Scrapy框架中更多常用的設定 86
5.2.1 抓取需要登錄的網站 86
5.2.2 Scrapy常用擴展設定 90
本章小結 91
本章作業 91
第6章 Selenium+瀏覽器載入動態數據 93
任務一 使用Selenium和第三方瀏覽器驅動完成搜狐網頁信息爬取 94
6.1.1 靜態網頁與動態網頁 94
6.1.2 爬蟲抓取動態網頁的常用方法 98
6.1.3 Selenium+Chrome driver 100
6.1.4 技能實訓 102
任務二 使用Selenium+Chrome+Scrapy完成京東商品信息爬取 102
6.2.1 Selenium的使用 102
6.2.2 Selenium提高效率的方法 108
6.2.3 技能實訓 111
本章小結 111
本章作業 111
第7章 App數據爬取 113
任務一 使用Scrapy爬蟲框架爬取雪球App基金頻道新聞列表數據 114
7.1.1 App數據爬取介紹 114
7.1.2 App數據接口分析方法 116
7.1.3 使用Scrapy爬取App數據 126
7.1.4 技能實訓 129
任務2 使用Scrapy爬蟲框架爬取知乎App推薦欄目列表數據 129
7.2.1 爬取使用證書校驗技術的App數據 130
7.2.2 技能實訓 134
本章小結 134
本章作業 134
第8章 分散式爬蟲Scrapy-Redis 135
任務1 搭建分散式爬蟲運行環境 136
8.1.1 分散式爬蟲框架介紹 136
8.1.2 搭建分散式爬蟲運行環境 140
任務2 使用分散式爬蟲完成對火車信息的爬取 147
8.2.1 Scrapy-Redis分散式爬蟲 147
8.2.2 技能實訓 153
本章小結 153
本章作業 154
第9章 Python數據分析 155
任務1 使用Pandas統計招聘信息中城市名稱出現的次數 156
9.1.1 Python數據分析 156
9.1.2 NumPy 159
9.1.3 Pandas 163
9.1.4 技能實訓 170
任務2 使用Matplotlib實現招聘信息中城市名稱出現次數的可視化展示 170
9.2.1 數據可視化 170
9.2.2 技能實訓 174
本章小結 174
本章作業 174
第 10章 項目實訓——爬取招聘網站數據 175
10.1 項目準備 176
10.2 難點分析 180
10.3 項目實現思路 187
本章小結 199
本章作業 199

相關詞條

熱門詞條

聯絡我們