Python開發簡單爬蟲

課程簡介

爬蟲技術用來從網際網路上自動獲取需要的數據。課程從對爬蟲的介紹出發，引入一個簡單爬蟲的技術架構，然後通過是什麼、怎么做、現場演示三步驟，解釋爬蟲技術架構中的三個模組。最後，一套優雅精美的爬蟲代碼實戰編寫，向大家演示了實戰抓取中文百科1000個頁面的數據全過程

第1章課程介紹

本章對課程要學習的內容進行概覽，明確告訴大家將從課程中學到開發一個爬蟲所需的相關技術。

1-1 Python開發簡單爬蟲課程介紹 (02:41)

第2章爬蟲簡介以及爬蟲的技術價值

本章介紹了爬蟲技術的含義，以及爬蟲這門技術存在的價值和意義

2-1 爬蟲是什麼 (01:10)

2-2 爬蟲技術的價值 (01:23)

第3章簡單爬蟲架構

本章介紹了精心提煉的一個簡潔爬蟲技術架構，通過動態圖介紹了技術架構實現爬蟲任務的流程，使大家對爬蟲的整體組成和運行流程有整體的把握。

3-1 Python簡單爬蟲架構 (01:30)

3-2 Python簡單爬蟲架構的動態運行流程 (01:41)

第4章 URL管理器和實現方法

本章介紹了簡單爬蟲架構的URL管理器模組，用於管理待爬取的URL集合和已爬取的URL集合，也介紹了實現URL管理器的幾種方法

4-1 Python爬蟲URL管理 (01:53)

4-2 Python爬蟲URL管理器的實現方式 (01:46)

第5章網頁下載器和urllib2模組

本章介紹了簡單爬蟲架構的網頁下載器模組，將網頁下載下來然後才能進行後續的數據提取，本章然後介紹了Python自帶的urllib2模組的各種使用語法用於網頁的下載

5-1 Python爬蟲網頁下載器簡介 (01:06)

5-2 Python爬蟲urlib2下載器網頁的三種方法 (03:47)

5-3 Python爬蟲urlib2實例代碼演示 (05:06)

第6章網頁解析器和BeautifulSoup第三方模組

本章介紹了簡單爬蟲架構的網頁解析器模組，解析器用於從網頁中提取價值數據和新的待爬取URL，本章然後介紹了BeautifulSoup這個強大的第三方模組用於數據的解析和提取

6-1 Python爬蟲網頁解析器簡介 (03:49)

6-2 BeautifulSoup模組介紹和安裝 (02:07)

6-3 BeautifulSoup的語法 (04:14)

6-4 BeautifulSoup實例測試 (06:01)

第7章實戰演練：爬取中文百科1000個頁面的數據

本章是課程的核心部分，通過一套精心設計並編寫的爬蟲代碼，實現了課程前面講述的簡單爬蟲架構中各個組成部分，爬蟲代碼最終完成了中文百科1000個頁面的數據爬取並進行了數據展示，本代碼經過配置修改後，可以用來爬取任何網站數據。