數據科學實戰之網路爬取:Python實踐和示例

數據科學實戰之網路爬取:Python實踐和示例

《數據科學實戰之網路爬取:Python實踐和示例》是機械工業出版社出版的圖書,作者是〔比〕希普·萬登·布魯克(Seppe vanden Broucke)、〔比〕巴特·巴森斯(Bart Baesens)。

基本介紹

  • 中文名:數據科學實戰之網路爬取:Python實踐和示例
  • 作者:〔比〕希普·萬登·布魯克(Seppe vanden Broucke)〔比〕巴特·巴森斯(Bart Baesens) 
  • 出版社:機械工業出版社 
  • ISBN:9787111614043 
內容簡介,作品目錄,

內容簡介

本書提供了一個完整的、現代的Web抓取指南,使用Python作為程式語言,專為數據科學的讀者編寫,探討了Web抓取和以及其背後的大量Web技術。書中首先簡要概述抓取和現實生活中的用例,解釋了HTTP、HTML和CSS的核心概念作為基礎。最後總結了一些最佳實踐和一系列的例子,這些數據科學用例匯集了你學到的所有知識。讀者將學習到如何利用已建立的最佳實踐和常用的Python包,處理包括JavaScript、Cookie和常見的web抓取技術。

作品目錄

  1. 譯者序
  2. 作者簡介
  3. 技術審校者簡介
  4. 前言
  5. 第一部分 網路爬取基礎
  6. 第1章 簡介
  7. 1.1 什麼是網路爬取
  8. 1.2 準備工作
  9. 第2章 網路傳輸協定HTTP
  10. 2.1 網路的魔力
  11. 2.2 超文本傳輸協定
  12. 2.3 Python中的HTTP——Requests庫
  13. 2.4 帶參數的URL查詢字元串
  14. 第3章 HTML和CSS
  15. 3.1 超文本標記語言HTML
  16. 3.2 將瀏覽器用作開發工具
  17. 3.3 層疊樣式表CSS
  18. 3.4 Beautiful Soup庫
  19. 3.5 有關Beautiful Soup的更多內容
  20. 第二部分 高級網路爬取
  21. 第4章 深入挖掘HTTP
  22. 4.1 使用表單和POST請求
  23. 4.2 其他HTTP請求方法
  24. 4.3 關於頭的更多信息
  25. 4.4 使用Cookie
  26. 4.5 requests庫的session對象
  27. 4.6 二進制、JSON和其他形式的內容
  28. 第5章 處理JavaScript
  29. 5.1 什麼是JavaScript
  30. 5.2 爬取JavaScript
  31. 5.3 使用Selenium爬取網頁
  32. 5.4 Selenium的更多信息
  33. 第6章 從網路爬取到網路爬蟲
  34. 6.1 什麼是網路爬蟲
  35. 6.2 使用Python實現網路爬蟲
  36. 6.3 資料庫存儲
  37. 第三部分 相關管理問題及最佳實踐
  38. 第7章 網路爬取涉及的管理和法律問題
  39. 7.1 數據科學過程
  40. 7.2 網路爬取適合用於哪裡
  41. 7.3 法律問題
  42. 第8章 結語
  43. 8.1 其他工具
  44. 8.2 最佳實踐和技巧
  45. 第9章 示例
  46. 9.1 爬取Hacker News網頁
  47. 9.2 使用Hacker News API
  48. 9.3 爬取引用信息
  49. 9.4 爬取書籍信息
  50. 9.5 爬取GitHub上項目被收藏的次數
  51. 9.6 爬取抵押貸款利率
  52. 9.7 爬取和可視化IMDB評級
  53. 9.8 爬取IATA航空公司信息
  54. 9.9 爬取和分析網路論壇的互動
  55. 9.10 收集和聚類時尚數據集
  56. 9.11 Amazon評論的情感分析
  57. 9.12 爬取和分析維基百科關聯圖
  58. 9.13 爬取和可視化董事會成員圖
  59. 9.14 使用深度學習破解驗證碼圖片

相關詞條

熱門詞條

聯絡我們