《數據科學實戰之網路爬取:Python實踐和示例》是機械工業出版社出版的圖書,作者是〔比〕希普·萬登·布魯克(Seppe vanden Broucke)、〔比〕巴特·巴森斯(Bart Baesens)。
基本介紹
- 書名:數據科學實戰之網路爬取:Python實踐和示例
- 作者:〔比〕希普·萬登·布魯克(Seppe vanden Broucke)〔比〕巴特·巴森斯(Bart Baesens)
- 出版社:機械工業出版社
- ISBN:9787111614043
內容簡介,作品目錄,
內容簡介
本書提供了一個完整的、現代的Web抓取指南,使用Python作為程式語言,專為數據科學的讀者編寫,探討了Web抓取和以及其背後的大量Web技術。書中首先簡要概述抓取和現實生活中的用例,解釋了HTTP、HTML和CSS的核心概念作為基礎。最後總結了一些最佳實踐和一系列的例子,這些數據科學用例匯集了你學到的所有知識。讀者將學習到如何利用已建立的最佳實踐和常用的Python包,處理包括JavaScript、Cookie和常見的web抓取技術。
作品目錄
- 譯者序
- 作者簡介
- 技術審校者簡介
- 前言
- 第一部分 網路爬取基礎
- 第1章 簡介
- 1.1 什麼是網路爬取
- 1.2 準備工作
- 第2章 網路傳輸協定HTTP
- 2.1 網路的魔力
- 2.2 超文本傳輸協定
- 2.3 Python中的HTTP——Requests庫
- 2.4 帶參數的URL查詢字元串
- 第3章 HTML和CSS
- 3.1 超文本標記語言HTML
- 3.2 將瀏覽器用作開發工具
- 3.3 層疊樣式表CSS
- 3.4 Beautiful Soup庫
- 3.5 有關Beautiful Soup的更多內容
- 第二部分 高級網路爬取
- 第4章 深入挖掘HTTP
- 4.1 使用表單和POST請求
- 4.2 其他HTTP請求方法
- 4.3 關於頭的更多信息
- 4.4 使用Cookie
- 4.5 requests庫的session對象
- 4.6 二進制、JSON和其他形式的內容
- 第5章 處理JavaScript
- 5.1 什麼是JavaScript
- 5.2 爬取JavaScript
- 5.3 使用Selenium爬取網頁
- 5.4 Selenium的更多信息
- 第6章 從網路爬取到網路爬蟲
- 6.1 什麼是網路爬蟲
- 6.2 使用Python實現網路爬蟲
- 6.3 資料庫存儲
- 第三部分 相關管理問題及最佳實踐
- 第7章 網路爬取涉及的管理和法律問題
- 7.1 數據科學過程
- 7.2 網路爬取適合用於哪裡
- 7.3 法律問題
- 第8章 結語
- 8.1 其他工具
- 8.2 最佳實踐和技巧
- 第9章 示例
- 9.1 爬取Hacker News網頁
- 9.2 使用Hacker News API
- 9.3 爬取引用信息
- 9.4 爬取書籍信息
- 9.5 爬取GitHub上項目被收藏的次數
- 9.6 爬取抵押貸款利率
- 9.7 爬取和可視化IMDB評級
- 9.8 爬取IATA航空公司信息
- 9.9 爬取和分析網路論壇的互動
- 9.10 收集和聚類時尚數據集
- 9.11 Amazon評論的情感分析
- 9.12 爬取和分析維基百科關聯圖
- 9.13 爬取和可視化董事會成員圖
- 9.14 使用深度學習破解驗證碼圖片