詳細介紹
玩轉Python網路爬蟲
作者:黃永祥
定價:69元
印次:1-1
ISBN:9787302503286
出版日期:2018.08.01
印刷日期:2018.10.17
圖書簡介
本書站在初學者的角度,從原理到實踐,循序漸進地講述了使用Python開發網路爬蟲的核心技術。全書從邏輯上可分為基礎篇、實戰篇和爬蟲框架篇三部分。基礎篇主要介紹了編寫網路爬蟲所需的基礎知識,分別是網站分析、數據抓取、數據清洗和數據入庫。網站分析講述如何使用Chrome和Fiddler抓包工具對網路做全面分析;數據抓取介紹了Python爬蟲模組Urllib和Requests的基礎知識;數據清洗主要介紹字元串操作、正則和Beautiful Soup的使用;數據入庫分別講述了MySQL和MongoDB的操作,通過ORM框架SQLAlchemy實現數據持久化,實現企業級開發。實戰篇深入講解了分散式爬蟲、爬蟲軟體開發與套用、12306搶票程式和微博爬取,所舉示例均來自於開發實踐,可幫助讀者快速提升技能,開發實際項目。
作者介紹
黃永祥,信息管理與信息系統專業學士,曾從事過系統開發和自動化開發,精通B/S和C/S自動化測試技術,多年網路爬蟲開發經驗,對反爬蟲機制有獨到的見解,精通Flask、Django等Web框架並有豐富的網站開發經驗。曾就職於廣州易點科技有限公司,擔任Python開發工程師,目前就職於廣東數據集成有限公司。熱愛分享和新技術的探索,在CSDN上發表多篇Python技術文章。
圖書目錄
第1章 理解網路爬蟲 1
1.1 爬蟲的定義 1
1.2 爬蟲的類型 2
1.3 爬蟲的原理 3
1.4 爬蟲的搜尋策略 5
1.5 反爬蟲技術及解決方案 6
1.6 本章小結 8
第2章 爬蟲開發基礎 9
2.1 HTTP與HTTPS 9
2.2 請求頭 11
2.3 Cookies 13
2.4 HTML 14
2.5 JavaScript 16
2.6 JSON 18
2.7 Ajax 19
2.8 本章小結 20
第3章 Chrome分析網站 21
3.1 Chrome開發工具 21
3.2 Elements標籤 22
13.1分析說明139
13.2歌曲下載140
13.3歌手和歌曲信息145
13.4分類歌手列表148
13.5全站歌手列表150
13.6數據存儲152
13.7分散式概念154
13.7.1GIL是什麼154
13.7.2為什麼會有GIL154
13.8並發庫concurrent.futures155
13.9分散式爬蟲157
13.10本章小結159
第14章 項目實戰:爬蟲軟體——淘寶商品信息161
14.1分析說明161
14.2GUI庫介紹162
14.3PyQt5安裝及環境搭建162
14.4軟體界面開發165
14.5MVC——視圖169
14.6MVC——控制器171
14.7MVC——模型172
14.8擴展思路173
14.9本章小結174
第15章 項目實戰:12306搶票176
15.1分析說明176
15.2驗證碼驗證177
15.3用戶登錄與驗證181
15.4查詢車次187
15.5預訂車票193
15.6提交訂單196
15.7生成訂單204
15.8本章小結209
第16章 項目實戰:玩轉微博219
16.1分析說明219
16.2用戶登錄220
16.3用戶登錄(帶驗證碼)232
16.4關鍵字搜尋熱門微博240
16.5發布微博247
16.6關注用戶253
16.7點讚和轉發評論257
16.8本章小結263
第17章 Scrapy爬蟲框架265
17.1爬蟲框架265
17.2Scrapy的運行機制267
17.3安裝Scrapy268
17.4爬蟲開發快速入門270
17.5Spiders介紹277
17.6Spider的編寫278
17.7Items的編寫282
17.8ItemPipeline的編寫284
17.9Selectors的編寫288
17.10檔案下載291
17.11本章小結296
第18章 項目實戰:Scrapy爬取QQ音樂298
18.1分析說明298
18.2創建項目299
18.3編寫setting300
18.4編寫Items301
18.5編寫ItemPipelines302
18.6編寫Spider305
18.7本章小結310