Python快樂編程——網路爬蟲

Python快樂編程——網路爬蟲

《Python快樂編程——網路爬蟲》是2019年9月清華大學出版社出版的圖書,作者是千鋒教育高教產品研發部。

基本介紹

  • 書名:Python快樂編程——網路爬蟲
  • 作者:千鋒教育高教產品研發部
  • ISBN:9787302529125
  • 定價:49.80元
  • 出版社:清華大學出版社
  • 出版時間:2019年9月
內容簡介,圖書目錄,

內容簡介

隨著網路技術的迅速發展,全球資訊網成為大量信息的載體,如何有效地提取並利用這些信息成為一個巨大的挑戰,網路爬蟲應運而生。本書介紹了如何利用Python 3.x來開發網路爬蟲,並通過爬蟲原理講解以及Web前端基礎知識引領讀者入門,結合企業實戰,讓讀者快速學會編寫Python網路爬蟲。
本書適用於中等水平的Python開發人員、高等院校及培訓學校的老師和學生。通過本書的學習可以輕鬆領會Python在網路爬蟲、數據挖掘領域的精髓,可勝任Python網路爬蟲工程師的工作以及完成各種網路爬蟲項目的代碼編寫。

圖書目錄

第1章Python網路爬蟲入門
1.1所需技能與Python版本
1.1.1所需技術能力
1.1.2選擇Python的原因
1.1.3選擇Python 3.x的原因
1.2初識網路爬蟲
1.2.1網路爬蟲的概念
1.2.2網路爬蟲的套用
1.2.3Robots協定
1.3搜尋引擎核心
1.4快速爬取網頁示例
1.5本章小結
1.6習題
第2章爬蟲基礎知識
2.1Cookie的使用
2.1.1Cookie的概念
2.1.2使用Cookiejar處理Cookie
2.2正則表達式
2.2.1正則表達式的概念
2.2.2正則表達式詳解
2.3標記語言
2.4XPath
2.5JSON
2.6BeautifulSoup
2.6.1安裝BeautifulSoup
2.6.2BeautifulSoup的使用
2.7本章小結
2.8習題
第3章urllib與requests
3.1urllib庫
3.1.1urllib庫的概念
3.1.2urllib庫的使用
3.2設定HTTP請求方法
3.2.1GET請求實戰
3.2.2設定代理服務
3.3異常處理
3.3.1URLError異常處理
3.3.2HTTPError異常處理
3.4requests庫
3.4.1安裝requests庫
3.4.2傳送請求
3.4.3回響接收
3.4.4會話對象
3.5本章小結
3.6習題
第4章網路爬蟲實例
4.1圖片爬蟲實例
4.2連結爬蟲實例
4.3文字爬蟲實例
4.4微信文章爬蟲
4.5多執行緒爬蟲及實例
4.6本章小結
4.7習題
第5章數據處理
5.1存儲HTML正文內容
5.1.1存儲為JSON格式
5.1.2存儲為CSV格式
5.2存儲媒體檔案
5.3Email提醒
5.4pymysql模組
5.5本章小結
5.6習題
第6章資料庫存儲
6.1SQLite
6.1.1SQLite介紹
6.1.2安裝SQLite
6.1.3Python與SQLite
6.1.4創建SQLite表
6.1.5添加SQLite表記錄
6.1.6查詢SQLite表記錄
6.1.7更新SQLite表記錄
6.1.8刪除SQLite表記錄
6.2MongoDB
6.2.1MongoDB簡介
6.2.2MongoDB適用場景
6.2.3MongoDB的安裝
6.2.4MongoDB基礎
6.2.5在Python中操作MongoDB
6.3Redis
6.3.1Redis簡介
6.3.2Redis適用場景
6.3.3Redis的安裝
6.3.4Redis數據類型與操作
6.3.5在Python中操作Redis
6.4本章小結
6.5習題
第7章抓取動態網頁內容
7.1JavaScript簡介
7.1.1JS語言特性
7.1.2JS簡單示例
7.1.3JavaScript庫
7.1.4Ajax簡介
7.2爬取動態網頁的工具
7.2.1Selenium庫
7.2.2PhantomJS瀏覽器
7.2.3Firefox的headless模式
7.2.4Selenium的選擇器
7.2.5Selenium等待方式
7.2.6客戶端重定向
7.3爬取動態網頁實例
7.4本章小結
7.5習題
第8章瀏覽器偽裝與定向爬取
8.1瀏覽器偽裝介紹
8.1.1抓包工具Fiddler
8.1.2瀏覽器偽裝過程分析
8.1.3瀏覽器偽裝技術實戰
8.2定向爬蟲
8.2.1定向爬蟲分析
8.2.2定向爬蟲實戰
8.3本章小結
8.4習題
第9章初探Scrapy爬蟲框架
9.1了解爬蟲框架
9.1.1初識Scrapy框架
9.1.2初識Crawley框架
9.1.3初識Portia框架
9.1.4初識Newspaper框架
9.2Scrapy介紹
9.2.1安裝Scrapy
9.2.2Scrapy程式管理
9.2.3Scrapy項目的結構
9.3常用命令
9.3.1Scrapy全局命令
9.3.2Scrapy項目命令
9.3.3Scrapy的Item對象
9.4編寫Spider程式
9.4.1初識Spider
9.4.2Spider檔案參數傳遞
9.5Spider反爬蟲機制
9.6本章小結
9.7習題
第10章深入Scrapy爬蟲框架
10.1Scrapy核心架構
10.2Scrapy組件詳解
10.3Scrapy數據處理
10.3.1Scrapy數據輸出
10.3.2Scrapy數據存儲
10.4Scrapy自動化爬取
10.4.1創建項目並編寫items.py
10.4.2編寫pipelines.py
10.4.3修改settings.py
10.4.4編寫爬蟲檔案
10.4.5執行自動化爬蟲
10.5CrawlSpider
10.5.1創建CrawlSpider
10.5.2LinkExtractor
10.5.3CrawlSpider部分原始碼分析
10.5.4實例CrawlSpider
10.6本章小結
10.7習題
第11章Scrapy實戰項目
11.1文章類項目
11.1.1需求分析
11.1.2實現思路
11.1.3程式設計
11.1.4請求分析
11.1.5循環網址
11.1.6爬蟲運行
11.2圖片類項目
11.2.1需求分析
11.2.2實現思路
11.2.3程式設計
11.2.4項目實現
11.3登錄類項目
11.3.1需求分析
11.3.2實現思路
11.3.3程式設計
11.3.4項目實現
11.4本章小結
11.5習題
第12章分散式爬蟲
12.1簡單分散式爬蟲
12.1.1進程及進程間通信
12.1.2簡單分散式爬蟲結構
12.1.3控制節點
12.1.4爬蟲節點
12.2Scrapy與分散式爬蟲
12.2.1Scrapy中集成Redis
12.2.2MongoDB集群
12.3Scrapy分散式爬蟲實戰
12.3.1創建爬蟲
12.3.2定義Item
12.3.3爬蟲模組
12.3.4編寫Pipeline
12.3.5修改Settings
12.3.6運行項目
12.4去重最佳化
12.5本章小結
12.6習題

相關詞條

熱門詞條

聯絡我們