Python開發簡單爬蟲

《Python開發簡單爬蟲》是慕課網提供的慕課課程,授課老師是公眾號_螞蟻學Py...。

基本介紹

  • 中文名:Python開發簡單爬蟲
  • 授課老師:公眾號_螞蟻學Py...
  • 類別:慕課
  • 提供方:慕課網
課程簡介,課程大綱,

課程簡介

爬蟲技術用來從網際網路上自動獲取需要的數據。課程從對爬蟲的介紹出發,引入一個簡單爬蟲的技術架構,然後通過是什麼、怎么做、現場演示三步驟,解釋爬蟲技術架構中的三個模組。最後,一套優雅精美的爬蟲代碼實戰編寫,向大家演示了實戰抓取中文百科1000個頁面的數據全過程

課程大綱

第1章 課程介紹
本章對課程要學習的內容進行概覽,明確告訴大家將從課程中學到開發一個爬蟲所需的相關技術。
1-1 Python開發簡單爬蟲課程介紹 (02:41)
第2章 爬蟲簡介以及爬蟲的技術價值
本章介紹了爬蟲技術的含義,以及爬蟲這門技術存在的價值和意義
2-1 爬蟲是什麼 (01:10)
2-2 爬蟲技術的價值 (01:23)
第3章 簡單爬蟲架構
本章介紹了精心提煉的一個簡潔爬蟲技術架構,通過動態圖介紹了技術架構實現爬蟲任務的流程,使大家對爬蟲的整體組成和運行流程有整體的把握。
3-1 Python簡單爬蟲架構 (01:30)
3-2 Python簡單爬蟲架構的動態運行流程 (01:41)
第4章 URL管理器和實現方法
本章介紹了簡單爬蟲架構的URL管理器模組,用於管理待爬取的URL集合和已爬取的URL集合,也介紹了實現URL管理器的幾種方法
4-1 Python爬蟲URL管理 (01:53)
4-2 Python爬蟲URL管理器的實現方式 (01:46)
第5章 網頁下載器和urllib2模組
本章介紹了簡單爬蟲架構的網頁下載器模組,將網頁下載下來然後才能進行後續的數據提取,本章然後介紹了Python自帶的urllib2模組的各種使用語法用於網頁的下載
5-1 Python爬蟲網頁下載器簡介 (01:06)
5-2 Python爬蟲urlib2下載器網頁的三種方法 (03:47)
5-3 Python爬蟲urlib2實例代碼演示 (05:06)
第6章 網頁解析器和BeautifulSoup第三方模組
本章介紹了簡單爬蟲架構的網頁解析器模組,解析器用於從網頁中提取價值數據和新的待爬取URL,本章然後介紹了BeautifulSoup這個強大的第三方模組用於數據的解析和提取
6-1 Python爬蟲網頁解析器簡介 (03:49)
6-2 BeautifulSoup模組介紹和安裝 (02:07)
6-3 BeautifulSoup的語法 (04:14)
6-4 BeautifulSoup實例測試 (06:01)
第7章 實戰演練:爬取中文百科1000個頁面的數據
本章是課程的核心部分,通過一套精心設計並編寫的爬蟲代碼,實現了課程前面講述的簡單爬蟲架構中各個組成部分,爬蟲代碼最終完成了中文百科1000個頁面的數據爬取並進行了數據展示,本代碼經過配置修改後,可以用來爬取任何網站數據。
7-1 Python爬蟲實例-分析目標 (05:59)
7-2 調度程式 (10:21)
7-3 URL管理器 (03:48)
7-4 HTML下載器html_downloader (01:24)
7-5 HTML解析器html_parser (07:25)
7-6 HTML輸出器 (03:30)
7-7 開始運行爬蟲和爬取結果展示 (01:58)
第8章 課程總結
本章回顧了課程講過的知識,對爬蟲的技術架構有一個整體的回顧和把握,另外也對爬蟲技術的深入發展將會遇到的困難進行了簡單展望
8-1 課程總結 (01:05)

相關詞條

熱門詞條

聯絡我們