精通Scrapy網路爬蟲

精通Scrapy網路爬蟲

《精通Scrapy網路爬蟲》是2017年10月1日清華大學出版社出版的圖書,作者是劉碩。

基本介紹

  • 中文名:精通Scrapy網路爬蟲
  • 作者:劉碩
  • 出版社:清華大學出版社
  • 出版時間:2017年10月1日
  • 定價:59 元
  • ISBN:9787302484936
內容簡介,圖書目錄,

內容簡介

本書深入系統地介紹了Python流行框架Scrapy的相關技術及使用技巧。全書共14章,從邏輯上可分為基礎篇和高級篇兩部分,基礎篇重點介紹Scrapy的核心元素,如spider、selector、item、link等;高級篇講解爬蟲的高級話題,如登錄認證、檔案下載、執行JavaScript、動態網頁爬取、使用HTTP代理、分散式爬蟲的編寫等,並配合項目案例講解,包括供練習使用的網站,以及京東、知乎、豆瓣、360爬蟲案例等。本書案例豐富,注重實踐,代碼注釋詳盡,適合有一定Python語言基礎,想學習編寫複雜網路爬蟲的讀者使用。

圖書目錄

第1章初識Scrapy1
1.1網路爬蟲是什麼1
1.2Scrapy簡介及安裝2
1.3編寫第一個Scrapy爬蟲3
1.3.1項目需求4
1.3.2創建項目4
1.3.3分析頁面5
1.3.4實現Spider6
1.3.5運行爬蟲8
1.4本章小結11
第2章編寫Spider12
2.1Scrapy框架結構及工作原理12
2.2Request和Response對象14
2.2.1Request對象15
2.2.2Response對象16
2.3Spider開發流程18
2.3.1繼承scrapy.Spider19
2.3.2為Spider命名20
2.3.3設定起始爬取點20
2.3.4實現頁面解析函式22
2.4本章小結22
第3章使用Selector提取數據23
3.1Selector對象23
3.1.1創建對象24
3.1.2選中數據25
3.1.3提取數據26
3.2Response內置Selector28
3.3XPath29
3.3.1基礎語法30
3.3.2常用函式35
3.4CSS選擇器36
3.5本章小結40
第4章使用Item封裝數據41
4.1Item和Field42
4.2拓展Item子類44
4.3Field元數據44
4.4本章小結47
第5章使用ItemPipeline處理數據48
5.1ItemPipeline48
5.1.1實現ItemPipeline49
5.1.2啟用ItemPipeline50
5.2更多例子51
5.2.1過濾重複數據51
5.2.2將數據存入
MongoDB54
5.3本章小結57
第6章使用LinkExtractor提取連結58
6.1使用LinkExtractor59
6.2描述提取規則60
6.3本章小結65
第7章使用Exporter導出數據66
7.1指定如何導出數據67
7.1.1命令行參數67
7.1.2配置檔案69
7.2添加導出數據格式70
7.2.1源碼參考70
7.2.2實現Exporter72
7.3本章小結74
第8章項目練習75
8.1項目需求77
8.2頁面分析77
8.3編碼實現83
8.4本章小結88
第9章下載檔案和圖片89
9.1FilesPipeline和
ImagesPipeline89
9.1.1FilesPipeline使用
說明90
9.1.2ImagesPipeline使用
說明91
9.2項目實戰:爬取matplotlib
例子源碼檔案92
9.2.1項目需求92
9.2.2頁面分析94
9.2.3編碼實現96
9.3項目實戰:下載360圖片103
9.3.1項目需求104
9.3.2頁面分析104
9.3.3編碼實現107
9.4本章小結109
第10章模擬登錄110
10.1登錄實質110
10.2Scrapy模擬登錄114
10.2.1使用FormRequest114
10.2.2實現登錄Spider117
10.3識別驗證碼119
10.3.1OCR識別119
10.3.2網路平台識別123
10.3.3人工識別127
10.4Cookie登錄128
10.4.1獲取瀏覽器
Cookie128
10.4.2CookiesMiddleware
源碼分析129
10.4.3實現BrowserCookies-
Middleware132
10.4.4爬取知乎個人
信息133
10.5本章小結135
第11章爬取動態頁面136
11.1Splash渲染引擎140
11.1.1render.html端點141
11.1.2execute端點142
11.2在Scrapy中使用Splash145
11.3項目實戰:爬取toscrape
中的名人名言146
11.3.1項目需求146
11.3.2頁面分析146
11.3.3編碼實現147
11.4項目實戰:爬取京東商城
中的書籍信息149
11.4.1項目需求149
11.4.2頁面分析149
11.4.3編碼實現152
11.5本章小結154
第12章存入資料庫155
12.1SQLite156
12.2MySQL159
12.3MongoDB165
12.4Redis169
12.5本章小結173
第13章使用HTTP代理174
13.1HttpProxyMiddleware175
13.1.1使用簡介175
13.1.2源碼分析177
13.2使用多個代理179
13.3獲取免費代理180
13.4實現隨機代理184
13.5項目實戰:爬取豆瓣電影
信息187
13.5.1項目需求188
13.5.2頁面分析189
13.5.3編碼實現194
13.6本章小結198
第14章分散式爬取199
14.1Redis的使用200
14.1.1安裝Redis200
14.1.2Redis基本命令201
14.2scrapy-redis源碼分析206
14.2.1分配爬取任務
部分207
14.2.2匯總爬取數據
部分214
14.3使用scrapy-redis進行分
布式爬取217
14.3.1搭建環境217
14.3.2項目實戰218
14.4本章小結224

相關詞條

熱門詞條

聯絡我們