人人都是python網路爬蟲工程師

《人人都是python網路爬蟲工程師》是豆瓣閱讀上的一本python網路爬蟲工程師入門教程,全書圍繞網路爬蟲程式運行邏輯,以“請求數據”、“解析數據”、“存儲數據”的三個核心過程來詳細講解網路爬蟲開發涉及的基礎技術知識及開發難點。並按照知識的必要性及難易程度將全書內容分為基礎知識部分、入門知識部分、進階知識部分和高階知識部分,以適應從業餘開發者到專業爬蟲工程師不同層級的學習需求。

基本介紹

  • 書名:人人都是python網路爬蟲工程師
  • 作者:馬耿睿
作品簡介,主要章節,

作品簡介

python和網路爬蟲技術聽起來很高端和專業,但其實都是未來社會中每個人都需要掌握的技術。與其說python和網路爬蟲技術現在是大學中的通識教育課程,不如說未來他是高中,甚至國中的通識教育課程。如果說使用Excel和VBA處理數據是數據處理1.0時代,那么使用Python獲得和處理數據便是數據處理的2.0時代。我們正站在數據處理2.0時代的大門前。開啟這扇大門的鑰匙便是大數據,大數據的基礎是獲取數據,網路爬蟲便是獲取數據的手段。然而,令人惋惜的是,雖然python和網路爬蟲技術人人都需要,但是目前市場上可以接觸到的資料都是面向程式開發人員的。講解的內容全面但是並不實用,解決的問題更多的是編程中遇到的高級問題,卻沒有重點講每個人最需要的能解決80%難題的20%的技術。這本書就是以能解決80%問題的20%的技術為核心展開,面向整個網路爬蟲開發的過程一步一步講解每個步驟解決大問題的小知識,讓非專業的程式開發人員也能快速的構建出網路爬蟲,享受大數據時代的數據紅利。作者為豆瓣閱讀入駐作者,為網易雲課堂入駐講師、百度雲閱讀簽約作者。畢業於山東大學控制學院,曾在世界500強吉利控股集團等知名企業任職,現全面負責某國家級行業平台數據採集策略、運營推廣技術支持及自動化軟體開發工作。

主要章節

本書主要章節如下:
1.基礎知識部分
第一章 網路爬蟲基礎
第二章 網路請求分析
第三章 python爬蟲開發環境搭建
2.入門知識部分
[請求數據]第四章 requests利器抓取第一個網頁
[解析數據]第五章 HTML/XML數據解析入門
[解析數據]第六章 JSON數據解析入門
[解析數據]第七章 正則表達式re擴展
[存儲數據]第八章 數據存儲基礎
[面向對象]第九章 面向對象的爬蟲開發
3.進階知識部分
[請求數據]第十章 selenium自動化測試技術
[請求數據]第十一章 多進程爬蟲開發
[解析數據]第十二章 XPath解析基礎
[解析數據]第十三章 tesseract-ocr解析與驗證碼識別
[存儲數據]第十四章 MySQL資料庫的使用
[存儲數據]第十五章 MongoDB的使用
[存儲數據]第十六章 python控制Excel
4.高階知識部分
[請求數據]第十七章 代理IP池與cookies池
[請求數據]第十八章 分散式爬蟲原理

相關詞條

熱門詞條

聯絡我們