數據採集技術—Python網路爬蟲項目化教程

內容簡介

網路爬蟲就是一組能自動從網站的相關網頁中搜尋與提取數據的程式，這些數據是進一步實現數據分析的關鍵與前提。Python語言程式簡單高效，編寫網路爬蟲有特別的優勢，尤其業界有專門為Python編寫的各種各樣的爬蟲程式框架，使得Python編寫爬蟲程式更加簡單高效。

本書主要分成4個項目，項目1以爬取學生信息的項目為依託，講解Python的Web訪問技術，它是爬蟲程式的基礎。項目2以爬取城市天氣預報項目為依託，講解BeautifulSoup網頁數據的爬取方法。項目3以爬取網路圖像項目為依託，講解網頁的深度優先與廣度優先順序爬取路徑的構造方法與多執行緒分散式網頁爬取技術。項目4以爬取網站的圖書信息項目為依託，講解目前功能強大的分散式爬取框架Scrapy的程式設計技術。每個部分都遵循由淺入深的學習規律，理論與實踐相結合，提高學生的實踐能力。

本書為新形態一體化教材，配有豐富的教學資源，包括微課、教學大綱、課程標準、教學課件、案例源碼、課後習題及習題答案等。本書同時配套建設了線上開放課程，學習者可登錄智慧職教MOOC學院平台，在“Python程式設計”頁面進行學習。本書可作為計算機軟體技術專業、大數據技術套用專業及其他專業的專業教材，也可作為數據採集技術學習者的自學參考書。

教材目錄

前輔文

項目1爬取學生信息

1.1爬蟲程式開發環境

1.1.1爬蟲程式簡介

1.1.2Python開發環境搭建

1.2FlaskWeb網站

1.2.1Flask簡介

1.2.2Urllib程式包訪問Web網站

1.3GET方法訪問網站

1.3.1客戶端GET方式傳送數據

1.3.2伺服器獲取GET傳送的數據

1.4POST方法向網站傳送數據

1.4.1客戶端POST傳送數據

1.4.2伺服器獲取POST的數據

1.4.3GET與POST的混合使用

1.5Web下載檔案

1.5.1伺服器程式

1.5.2客戶端程式

1.6Web上傳檔案

1.6.1上傳二進制數據

1.6.2伺服器程式

1.6.3客戶端程式

1.7Web學生管理程式

1.7.1定義通訊協定

1.7.2伺服器程式

1.7.3客戶端程式

1.8正則表達式

1.8.1正則表達式規則

1.8.2查找匹配字元串

1.9實踐項目—爬取學生信息

1.9.1項目簡介

1.9.2伺服器程式

1.9.3客戶端程式

練習一

項目2爬取天氣預報數據

2.1HTML文檔結構與文檔樹

2.1.1HTML文檔結構

2.1.2HTML文檔樹

2.2BeautifulSoup裝載HTML文檔

數據採集技術—Python網路爬蟲項目化教程

基本介紹

內容簡介

教材目錄

相關詞條

熱門詞條