《數據科學實戰之網路爬取:Python實踐和示例》是機械工業出版社出版的圖書,作者是〔比〕希普·萬登·布魯克(Seppe vanden Broucke)、〔比〕巴特·巴森斯(Bart Baesens)。
基本介紹
- 中文名:數據科學實戰之網路爬取:Python實踐和示例
- 作者:〔比〕希普·萬登·布魯克(Seppe vanden Broucke)〔比〕巴特·巴森斯(Bart Baesens)
- 出版社:機械工業出版社
- ISBN:9787111614043
內容簡介
作品目錄
- 譯者序
- 作者簡介
- 技術審校者簡介
- 前言
- 第一部分 網路爬取基礎
- 第1章 簡介
- 1.1 什麼是網路爬取
- 1.2 準備工作
- 第2章 網路傳輸協定HTTP
- 2.1 網路的魔力
- 2.2 超文本傳輸協定
- 2.3 Python中的HTTP——Requests庫
- 2.4 帶參數的URL查詢字元串
- 第3章 HTML和CSS
- 3.1 超文本標記語言HTML
- 3.2 將瀏覽器用作開發工具
- 3.3 層疊樣式表CSS
- 3.4 Beautiful Soup庫
- 3.5 有關Beautiful Soup的更多內容
- 第二部分 高級網路爬取
- 第4章 深入挖掘HTTP
- 4.1 使用表單和POST請求
- 4.2 其他HTTP請求方法
- 4.3 關於頭的更多信息
- 4.4 使用Cookie
- 4.5 requests庫的session對象
- 4.6 二進制、JSON和其他形式的內容
- 第5章 處理JavaScript
- 5.1 什麼是JavaScript
- 5.2 爬取JavaScript
- 5.3 使用Selenium爬取網頁
- 5.4 Selenium的更多信息
- 第6章 從網路爬取到網路爬蟲
- 6.1 什麼是網路爬蟲
- 6.2 使用Python實現網路爬蟲
- 6.3 資料庫存儲
- 第三部分 相關管理問題及最佳實踐
- 第7章 網路爬取涉及的管理和法律問題
- 7.1 數據科學過程
- 7.2 網路爬取適合用於哪裡
- 7.3 法律問題
- 第8章 結語
- 8.1 其他工具
- 8.2 最佳實踐和技巧
- 第9章 示例
- 9.1 爬取Hacker News網頁
- 9.2 使用Hacker News API
- 9.3 爬取引用信息
- 9.4 爬取書籍信息
- 9.5 爬取GitHub上項目被收藏的次數
- 9.6 爬取抵押貸款利率
- 9.7 爬取和可視化IMDB評級
- 9.8 爬取IATA航空公司信息
- 9.9 爬取和分析網路論壇的互動
- 9.10 收集和聚類時尚數據集
- 9.11 Amazon評論的情感分析
- 9.12 爬取和分析維基百科關聯圖
- 9.13 爬取和可視化董事會成員圖
- 9.14 使用深度學習破解驗證碼圖片