Python爬蟲項目教程

內容簡介

本書以Python語言為基礎，介紹了爬蟲的基礎知識。本書包括6個實戰項目，分別為爬取外匯網站數據、爬取名言網站數據、爬取電影網站數據、爬取圖書網站數據、爬取商城網站數據、爬取景區網站數據，通過這些項目講解了Python的Web訪問技術、BeautifulSoup的數據分析與提取技術、深度優先與廣度優先順序爬取技術、多執行緒網頁爬取技術、scrapy分散式爬取框架技術、selenium爬蟲程式技術、AWS中的DynamoDB資料庫的NoSQL存儲技術等。本書每個項目都遵循由淺入深的學習規律，採取理論與實踐相結合的方式來引導讀者完成實戰。

本書可作為計算機軟體技術專業及其相關專業的程式設計課程教材。

圖書目錄

項目1 爬取外匯網站數據 1

1.1 項目任務 1

1.2 搭建爬蟲程式開發環境 1

1.2.1 理解爬蟲程式 2

1.2.2 搭建開發環境 2

1.3 使用Flask創建Web網站 3

1.3.1 安裝Flask框架 3

1.3.2 創建模擬外匯網站 4

1.3.3 編寫客戶端程式並獲取網站的HTML代碼 5

1.4 使用GET方法訪問Web網站 7

1.4.1 客戶端使用GET方法傳送數據 7

1.4.2 伺服器端使用GET方法獲取數據 8

1.5 使用POST方法訪問Web網站 9

1.5.1 客戶端使用POST方法傳送數據 9

1.5.2 伺服器端使用POST方法獲取數據 10

1.5.3 混合使用GET與POST方法 11

1.6 使用正則表達式匹配數據 13

1.6.1 使用正則表達式匹配字元串 14

1.6.2 使用正則表達式爬取數據 17

1.7 綜合項目爬取模擬外匯網站數據 18

1.7.1 創建模擬外匯網站 18

1.7.2 解析網站的HTML代碼 19

1.7.3 設計存儲資料庫 19

1.7.4 編寫爬蟲程式 20

1.7.5 執行爬蟲程式 22

1.8 實戰項目爬取實際外匯網站數據 22

1.8.1 解析網站的HTML代碼 22

1.8.2 爬取網站外匯匯率數據 24

1.8.3 設計存儲資料庫 25

1.8.4 編寫爬蟲程式 26

1.8.5 執行爬蟲程式 28

項目總結 29

練習1 29

項目2 爬取名言網站數據 30

2.1 項目任務 30

2.2 使用BeautifulSoup裝載HTML文檔 30

2.2.1 創建模擬名言網站 31

Python爬蟲項目教程

基本介紹

內容簡介

圖書目錄

作者簡介

相關詞條

熱門詞條