Python爬蟲從菜鳥到高手

內容簡介

本書從實戰角度系統論述了Python 爬蟲技術的核心知識，並通過大量的真實項目幫助讀者深入掌握Python 爬蟲技術及其實現。本書提供了大量實戰案例，演繹採用各種技術編寫Python 爬蟲的方式。讀者可以任意組合使用這些技術，完成非常複雜的爬蟲套用。本書共20 章，分為五篇。第一篇：基礎知識（第1～2 章），主要包括Python 編程環境的搭建、IDE 的安裝和使用、HTTP 的基礎知識、網頁基礎（HTML、CSS、JavaScript）、爬蟲的基本原理、Session、Cookie。第二篇：網路庫（第3～5 章），主要包括網路庫urllib、urllib3 和requests 的核心使用方法，例如，傳送HTTP 請求、處理逾時、設定HTTP 請求頭、處理中文字元、搭建和使用代理、解析連結、Robots 協定等。第三篇：解析庫（第6～9 章），主要包括3 個常用解析庫（lxml、Beautiful Soup 和pyquery）的使用方法，同時介紹了多種用於分析HTML 代碼的技術，例如，正則表達式、XPath、CSS 選擇器、方法選擇器等。第四篇：數據存儲（第10～11 章），主要包括Python 中數據存儲的解決方案，如檔案存儲和SQLite 資料庫。第五篇：爬蟲高級套用（第12～20 章），主要包括Python 爬蟲的一些高級技術，如抓取異步數據、Selenium、Splash、抓取移動App 數據、Appium、多執行緒爬蟲、爬蟲框架Scrapy、通過OpenCV 技術識別驗證碼；最後給出一個綜合的實戰案例，該案例綜合了Python 爬蟲、數據存儲、PyQt、多執行緒、數據可視化、Web 等多種技術實現一個可視化爬蟲。

圖書目錄

第一篇基礎知識

第1章開發環境配置3

1.1搭建Python編程環境.3

1.1.1獲取Python安裝包3

1.1.2安裝Windows版的Python開發包4

1.1.3安裝macOS版的Python開發包4

1.1.4安裝Linux版的Python開發包.5

1.2安裝AnacondaPython開發環境5

1.3消除PythonREPL中的錯誤和警告6

1.4安裝PyCharm.7

1.5配置PyCharm.8

1.6小結9

第2章爬蟲基礎10

2.1HTTP基礎.10

2.1.1URI和URL10

2.1.2超文本11

2.1.3HTTP與HTTPS11

2.1.4HTTP的請求過程13

2.1.5請求16

2.1.6回響19

2.2網頁基礎22

2.2.1HTML基礎.22

2.2.2CSS基礎.23

2.2.3CSS選擇器.23

Python爬蟲從菜鳥到高手

基本介紹

內容簡介

圖書目錄

相關詞條

熱門詞條