《數據採集技術—Python網路爬蟲項目化教程》是由黃銳軍編著,高等教育出版社出版的圖書,可作為計算機軟體技術專業、大數據技術套用專業及其他專業的專業教材,也可作為數據採集技術學習者的自學參考書。
基本介紹
- 書名:數據採集技術—Python網路爬蟲項目化教程
- 作者:黃銳軍
- ISBN:978-7-04-049781-6
- 類別:計算機大類
- 頁數:139頁
- 出版社:高等教育出版社
- 出版時間:2018-08-10
- 裝幀:平裝
- 開本:16開
- 版面字數:230千字
內容簡介,教材目錄,
內容簡介
網路爬蟲就是一組能自動從網站的相關網頁中搜尋與提取數據的程式,這些數據是進一步實現數據分析的關鍵與前提。Python語言程式簡單高效,編寫網路爬蟲有特別的優勢,尤其業界有專門為Python編寫的各種各樣的爬蟲程式框架,使得Python編寫爬蟲程式更加簡單高效。
本書主要分成4個項目,項目1以爬取學生信息的項目為依託,講解Python的Web訪問技術,它是爬蟲程式的基礎。項目2以爬取城市天氣預報項目為依託,講解BeautifulSoup網頁數據的爬取方法。項目3以爬取網路圖像項目為依託,講解網頁的深度優先與廣度優先順序爬取路徑的構造方法與多執行緒分散式網頁爬取技術。項目4以爬取網站的圖書信息項目為依託,講解目前功能強大的分散式爬取框架Scrapy的程式設計技術。每個部分都遵循由淺入深的學習規律,理論與實踐相結合,提高學生的實踐能力。
本書為新形態一體化教材,配有豐富的教學資源,包括微課、教學大綱、課程標準、教學課件、案例源碼、課後習題及習題答案等。本書同時配套建設了線上開放課程,學習者可登錄智慧職教MOOC學院平台,在“Python程式設計”頁面進行學習。本書可作為計算機軟體技術專業、大數據技術套用專業及其他專業的專業教材,也可作為數據採集技術學習者的自學參考書。
教材目錄
前輔文
項目1爬取學生信息
1.1爬蟲程式開發環境
1.1.1爬蟲程式簡介
1.1.2Python開發環境搭建
1.2FlaskWeb網站
1.2.1Flask簡介
1.2.2Urllib程式包訪問Web網站
1.3GET方法訪問網站
1.3.1客戶端GET方式傳送數據
1.3.2伺服器獲取GET傳送的數據
1.4POST方法向網站傳送數據
1.4.1客戶端POST傳送數據
1.4.2伺服器獲取POST的數據
1.4.3GET與POST的混合使用
1.5Web下載檔案
1.5.1伺服器程式
1.5.2客戶端程式
1.6Web上傳檔案
1.6.1上傳二進制數據
1.6.2伺服器程式
1.6.3客戶端程式
1.7Web學生管理程式
1.7.1定義通訊協定
1.7.2伺服器程式
1.7.3客戶端程式
1.8正則表達式
1.8.1正則表達式規則
1.8.2查找匹配字元串
1.9實踐項目—爬取學生信息
1.9.1項目簡介
1.9.2伺服器程式
1.9.3客戶端程式
練習一
項目2爬取天氣預報數據
2.1HTML文檔結構與文檔樹
2.1.1HTML文檔結構
2.1.2HTML文檔樹
2.2BeautifulSoup裝載HTML文檔
2.2.1BeautifulSoup的安裝
2.2.2BeautifulSoup裝載HTML文檔
2.3BeautifulSoup查找文檔元素
2.3.1查找HTML元素
2.3.2獲取元素的屬性值
2.3.3獲取元素包含的文本值
2.3.4高級查找
2.4BeautifulSoup遍歷文檔元素
2.4.1獲取元素結點的父結點
2.4.2獲取元素結點的直接子元素結點
2.4.3獲取元素結點的所有子孫元素結點
2.4.4獲取元素結點的兄弟結點
2.5BeautifulSoup使用CSS語法查找元素
2.5.1使用CSS語法
2.5.2屬性的語法規則
2.5.3Select查找子孫結點
2.5.4Select查找直接子結點
2.5.5Select查找兄弟結點
2.6實踐項目—爬取天氣預報數據
2.6.1項目簡介
2.6.2HTML代碼分析
2.6.3爬取天氣預報數據
2.6.4爬取與存儲天氣預報數據
練習二
項目3爬取網站圖像檔案
3.1網站樹的爬取路徑
3.1.1Web伺服器網站
3.1.2遞歸程式爬取數據
3.1.3深度優先爬取數據
3.1.4廣度優先爬取數據
3.2網站圖的爬取路徑
3.2.1複雜的Web網站
3.2.2改進深度優先客戶端程式
3.2.3改進廣度優先客戶端程式
3.3Python實現多執行緒
3.3.1Python的前後台執行緒
3.3.2執行緒的等待
3.3.3多執行緒與資源
3.4爬取網站複雜數據
3.4.1Web伺服器網站
3.4.2爬取網站的複雜數據
3.4.3爬取程式的改進
3.5實踐項目——爬取網站的圖像檔案
3.5.1項目簡介
3.5.2單執行緒爬取圖像的程式
3.5.3多執行緒爬取圖像的程式
練習三
項目4爬取網站圖書數據
4.1Scrapy框架爬蟲簡介
4.1.1安裝Scrapy框架
4.1.2建立Scrapy項目
4.1.3入口函式與入口地址
4.1.4Python的yield語句
4.2Scrapy中查找HTML元素
4.2.1Scrapy的Xpath簡介
4.2.2Xpath查找HTML元素
4.3Scrapy爬取與存儲數據
4.3.1建立Web網站
4.3.2編寫數據項目類
4.3.3編寫爬蟲程式MySpider
4.3.4編寫數據管道處理類
4.3.5設定Scrapy的配置檔案
4.4Scrapy爬取網站數據
4.4.1建立Web網站
4.4.2編寫Scrapy爬蟲程式
4.5實踐項目—爬取噹噹網站圖書數據
4.5.1網站圖書數據分析
4.5.2網站圖書數據提取
4.5.3網站圖書數據爬取
練習四
結語
參考文獻