蟲術——Python絕技

蟲術——Python絕技

《蟲術——Python絕技》是2018年7月電子工業出版社出版的圖書,作者是梁睿坤。

基本介紹

  • 中文名:蟲術——Python絕技
  • 作者:梁睿坤
  • ISBN:9787121344565
  • 頁數:428頁
  • 定價:99元
  • 出版社:電子工業出版社
  • 出版時間:2018年7月
  • 開本:16開
內容簡介,圖書目錄,

內容簡介

本書以大數據套用方面常用的語言Python為基礎,從網路爬蟲的實現原理入手,逐步引領讀者進入網路爬蟲的世界。在各類爬蟲框架中,將Scrapy作為軸心,從多個維度揭開爬蟲技術的面紗。例如,爬取規則的制定技巧,設計高速爬蟲,如何讓爬蟲更“聰明”地獲取數據,將海量數據進行分散式存儲的技術,設計具有高隱匿性的爬蟲,大規模、高並發的分散式爬蟲技術。

圖書目錄

第1章 爬蟲初步
1.1 爬蟲與大數據
1.1.1 大數據架構
1.1.2 爬蟲的作用與地位
1.1.3 Python與爬蟲
1.1.4 Python的網路爬蟲框架
1.1.5 蟲術技術路線圖
1.2 實例:簡單的爬蟲
1.3 內容分析進階
1.3.1 選擇器
1.3.2 深入BeautifulSoup
1.3.3 元素的搜尋
1.3.4 亂碼與中文編碼
1.4 新聞供稿的爬取實例
1.5 小結
第2章 Scrapy基礎知識
2.1 Scrapy架構
2.2 Scrapy快速入手
2.3 數據模型Item
2.4 蜘蛛—Spiders
2.5 管道—Item Pipeline
2.6 Scrapy的運行與配置
2.7 新聞供稿爬蟲的Scrapy實現
2.8 小結
第3章 Scrapy的工程管理
3.1 Scrapyd
3.2 scrapyd-client及部署
3.3 搭建爬蟲伺服器
第4章 中階蟲術
4.1 蜘蛛的演化
4.1.1 蜘蛛的本質—深入Spider
4.1.2 通用蜘蛛
4.1.3 蜘蛛中間件
4.2 爬蟲系統的測試與調試
4.2.1 開發期調試
4.2.2 蜘蛛的測試
4.2.3 蜘蛛的運行期調試
4.2.4 調試記憶體溢出
4.3 處理HTTP請求
4.3.1 HTTP請求
4.3.2 Scrapy的Request對象
4.3.3 表單處理
4.3.4 下載器中間件
4.4 處理HTTP回響
4.4.1 HTTP回響
4.4.2 Scrapy的回響對象
4.4.3 深入選擇器
4.4.4 非結構化數據的提取
4.4.5 黑夜中的眼睛
4.5 處理JavaScript
4.5.1 示例:電商產品爬蟲
4.5.2 Selenium和PhantomJS
4.5.3 Scrapy與Splash
4.6 數據存儲與後處理
4.6.1 圖片的下載與存儲
4.6.2 示例:產品圖片採集
4.6.3 導出到數據檔案
4.6.4 導出到資料庫
4.6.5 示例:基於阿里雲的存儲後端
第5章 高階蟲術
5.1 增量式爬網
5.1.1 推演路由
5.1.2 時機的重要性
5.1.3 去重處理
5.1.5 基於Redis的布隆過濾器
5.2 突破封印
5.2.1 封禁淺析
5.2.2 客戶端仿真
5.2.3 化身萬千—蜘蛛世界的易容術
5.2.4 反跟蹤
5.2.5 繞開蜜罐
5.3 蟲海
5.3.1 分散式爬蟲架構
5.3.2 認識scrapy-redis
5.3.3 示例:分散式電商爬蟲
5.4 可視化爬蟲
5.4.1 示例:某點評網爬蟲
5.4.2 解讀Portia爬蟲代碼
5.4.3 數據項載入器—Item Loaders
5.4.4 最後的工作

相關詞條

熱門詞條

聯絡我們