中公python高效開發指南python網路爬蟲綜合開發

中公python高效開發指南python網路爬蟲綜合開發

《中公python高效開發指南python網路爬蟲綜合開發》是2021年陝西科學技術出版社出版的圖書,本書共分為十二章,涵蓋了Python網路爬蟲綜合開發的相關知識,對重難點內容進行了針對性講解。

基本介紹

  • 中文名:中公python高效開發指南python網路爬蟲綜合開發
  • 作者:中公教育優就業研究院
  • 出版社:陝西科學技術出版社
  • ISBN:9787536980556
內容簡介,圖書目錄,

內容簡介

本書面向Python網路爬蟲開發的初學者,按照由淺入深、循序漸進的規律,從講解網路爬蟲開發基礎知識,到講解如何開發單個.py檔案的Python爬蟲程式,後講解基於Scrapy爬蟲框架的網路爬蟲開發。
● 網路爬蟲概述(章)
介紹了網路爬蟲的基礎知識,包括定義、分類、原理和搜尋策略等概念性內容。
● Python網路爬蟲開發基礎(第二章)
介紹了Python開發環境的搭建,重點介紹了PyCharm的使用。另外,還詳細介紹了HTTP協定的相關知識,並介紹了HTML、JavaScript和XPath。
● 開發單個.py檔案的爬蟲程式(第三章、第四章)
介紹了如何開發單個.py檔案的Python爬蟲程式,該程式採用Request模組獲取數據,並採用XPath、BeautifulSoup4和PyQuery模組進行解析。
● 開發Python網路爬蟲相關技術(第五章至第十章)
介紹了Python網路爬蟲開發中廣泛套用的技術,包括正則表達式、數據接口、資料庫的使用、表單的使用、模擬登錄、反反爬蟲方法和Selenium模擬瀏覽器等,並結合豐富的小案例來展示知識點。
● Scrapy爬蟲框架(第十一章、第十二章)
介紹了基於Scrapy爬蟲框架的爬蟲開發和分散式爬蟲框架scrapy-redis,以及爬蟲的部署。

圖書目錄

第一章網路爬蟲概述1
1.1網路爬蟲的定義1
1.2網路爬蟲的發展階段1
1.3網路爬蟲的套用1
1.4網路爬蟲的類型2
1.5網路爬蟲的原理3
1.6網路爬蟲的搜尋策略3
1.6.1深度優先搜尋策略4
1.6.2廣度優先搜尋策略4
1.7反爬蟲技術及解決方案5
1.7.1通過User-Agent來反爬蟲5
1.7.2通過IP限制來反爬蟲6
1.7.3通過JavaScript腳本來反爬蟲7
1.7.4通過robots.txt來反爬蟲7
第二章爬蟲開發基礎8
2.1Python的安裝和運行8
2.1.1Python的安裝8
2.1.2編寫個Python程式12
2.2PyCharm開發工具的安裝和使用12
2.3HTTP18
2.3.1URI和URL18
2.3.2HTTP和HTTPS18
2.3.3HTTP請求報文18
2.3.4HTTP請求過程20
2.3.5HTTP請求方法21
2.3.6HTTP回響報文21
2.4HTTP會話和Cookies23
2.4.1靜態網頁和動態網頁23
2.4.2HTTP會話23
2.4.3Cookies24
2.5HTTP代理伺服器24
2.5.1HTTP代理伺服器的基本原理24
2.5.2HTTP代理伺服器的主要功能25
2.6HTML25
2.6.1HTML概述25
2.6.2HTML基礎知識26
2.6.3HTML常用標籤28
2.7HTMLDOM37
2.8JavaScript39
2.8.1JS的使用39
2.8.2JS變數40
2.8.3JS變數的命名規則40
2.8.4JS變數的數據類型40
2.8.5JS對象41
2.8.6JS函式41
2.8.7JS運算符41
2.8.8JS條件語句42
2.8.9JS循環語句43
2.8.10break語句和continue語句45
2.9JSON45
2.9.1JSON數據結構45
2.9.2JSON數據類型46
2.9.3JSON與XML的比較46
2.10AJAX48
2.11XPath48
2.11.1XPath選取節點48
2.11.2XPath謂語49
2.11.3XPath通配符49
2.11.4XPath多路徑選擇50
2.11.5XPath軸50
2.11.6XPath運算符51
2.11.7XPath常用的功能函式52
第三章使用開發者工具分析網站53
3.1開發者工具53
3.2元素(Elements)面板54
3.3網路(Network)面板55
3.4Chrome外掛程式59
第四章HTML內容爬取與解析62
4.1爬蟲的開發思路62
4.2Requests模組概述及其安裝65
4.3Requests基本請求方式67
4.4複雜的Requests請求方式70
4.5Requests上傳與下載74
4.6lxml模組的安裝與使用方法76
4.6.1lxml模組的安裝76
4.6.2lxml模組的使用77
4.7BeautifulSoup4模組88
4.7.1BeautifulSoup4模組的安裝88
4.7.2解析器89
4.7.3按照標準的縮進格式輸出HTML89
4.7.4處理HTMLDOM節點91
4.7.5遍歷Tag的子孫節點97
4.7.6獲取Tag的文本內容101
4.7.7根據Tags間的關係獲取節點105
4.7.8find_all()方法name參數的使用109
4.7.9find_all()方法其他參數的使用115
4.7.10搜尋HTMLDOM樹的其他方法123
4.7.11採用CSS選擇器查找元素124
4.8PyQuery模組132
4.8.1PyQuery模組的安裝132
4.8.2PyQuery模組語法講解132
4.9TXT檔案的讀/寫操作136
4.9.1TXT檔案的讀取136
4.9.2TXT檔案的寫入138
4.10CSV檔案的讀/寫操作139
4.10.1CSV檔案概述139
4.10.2CSV檔案的讀取140
4.10.3CSV檔案的寫入142
第五章正則表達式144
5.1正則表達式常用符號144
5.1.1正則表達式的定義144
5.1.2普通字元144
5.1.3預定義字元145
5.1.4量詞字元147
5.1.5邊界匹配字元150
5.1.6分組匹配字元152
5.2re模組及其功能函式153
5.2.1search()函式153
5.2.2sub()函式155
5.2.3findall()函式156
5.2.4re模組修飾符157
5.3綜合案例——爬取某電影網站的榜單157
5.3.1爬蟲思路分析157
5.3.2爬蟲程式及分析158
第六章數據接口信息爬取161
6.1數據接口概述161
6.2API的使用161
6.2.1API概述161
6.2.2API樣例161
6.3解析XHR接口165
6.3.1JSON解析庫165
6.3.2某招聘網站數據接口分析167
6.4綜合案例——爬取某網站新聞中的圖片172
6.4.1圖片爬取方法172
6.4.2爬蟲思路分析173
6.4.3爬蟲程式及分析177
第七章資料庫存儲180
7.1MySQL資料庫180
7.1.1關係型資料庫概述180
7.1.2MySQL的安裝182
7.1.3SQL概述187
7.1.4MySQL的數據類型187
7.1.5數據定義語言(DDL)及常用操作189
7.1.6數據操縱語言(DML)193
7.1.7數據查詢語言(DQL)195
7.1.8pyMySQL模組的使用203
7.2MongoDB資料庫206
7.2.1NoSQL資料庫概述206
7.2.2MongoDB的安裝206
7.2.3MongoDB的數據類型213
7.2.4MongoDB資料庫操作214
7.2.5MongoDB集合操作215
7.2.6MongoDB文檔操作216
7.2.7pymongo模組的使用222
7.3Redis資料庫226
7.3.1記憶體資料庫概述226
7.3.2典型Redis數據類型的操作226
7.3.3Redis模組的使用234
7.4綜合案例1——爬取某網站的微客數據235
7.4.1爬蟲思路分析235
7.4.2爬蟲程式及分析237
7.5綜合案例2——爬取某網站的房源數據241
7.5.1爬蟲思路分析241
7.5.2爬蟲程式及分析244
第八章表單互動與模擬登錄249
8.1表單互動249
8.1.1POST請求249
8.1.2PythonRequests提交表單249
8.2模擬登錄254
8.2.1Cookies概述254
8.2.2提交Cookies模擬登錄254
8.3綜合案例——爬取某招聘網站的招聘信息257
8.3.1爬蟲思路分析257
8.3.2爬蟲程式及分析259
第九章反爬蟲技術以及應對方法262
9.1常見的反爬蟲技術262
9.2基於請求頭的反爬蟲技術以及應對方法262
9.3基於用戶行為的反爬蟲技術以及應對方法264
9.4基於Cookies的反爬蟲技術以及應對方法266
9.5基於驗證碼的反爬蟲技術以及應對方法267
第十章Selenium模擬瀏覽器271
10.1Selenium概述271
10.1.1Selenium的介紹和安裝271
10.1.2瀏覽器的選擇和安裝271
10.2Selenium的使用274
10.2.1模擬瀏覽器簡單操作274
10.2.2SeleniumDriver操作276
10.2.3SeleniumWebelement操作277
10.2.4SeleniumActionChains278
10.2.5SeleniumWait279
10.2.6SeleniumExpectedConditions280
10.2.7模擬登錄282
10.2.8破解滑塊驗證碼283
10.3綜合案例1——爬取某交友軟體的好友空間信息288
10.3.1爬蟲思路分析288
10.3.2爬蟲程式及分析291
10.4綜合案例2——爬取某電商網站的商品信息292
10.4.1爬蟲思路分析292
10.4.2爬蟲程式及分析294
第十一章Scrapy爬蟲框架300
11.1Scrapy的安裝和使用300
11.1.1Scrapy爬蟲框架的架構300
11.1.2安裝Scrapy301
11.1.3創建Scrapy爬蟲項目304
11.1.4Scrapy檔案介紹306
11.1.5編寫Scrapy爬蟲程式309
11.1.6運行Scrapy爬蟲311
11.1.7ItemPipeline的用法313
11.1.8下載中間件的用法315
11.1.9Scrapy對接Selenium319
11.2綜合案例1——爬取某房地產網站326
11.2.1爬蟲思路分析326
11.2.2爬蟲程式及分析329
11.3綜合案例2——爬取某書評網站335
11.3.1爬蟲思路分析335
11.3.2爬蟲程式及分析338
第十二章分散式爬蟲以及爬蟲的部署345
12.1分散式爬蟲原理345
12.1.1分散式爬蟲架構345
12.1.2維護爬取佇列346
12.1.3去重操作346
12.1.4防止中斷348
12.2基於scrapy-redis的分散式爬蟲348
12.2.1scrapy-redis架構349
12.2.2安裝scrapy-redis349
12.2.3scrapy-redis常用配置350
12.2.4scrapy-redis簡單實例350
12.3Scrapyd部署爬蟲351
12.4Scrapyd-Client的使用353

相關詞條

熱門詞條

聯絡我們