python網路爬蟲技術與實戰(2021年機械工業出版社出版的圖書)

python網路爬蟲技術與實戰(2021年機械工業出版社出版的圖書)

本詞條是多義詞,共2個義項
更多義項 ▼ 收起列表 ▲

《python網路爬蟲技術與實戰》是2021年機械工業出版社出版的圖書。本書是一本系統、全面地介紹Python網路爬蟲的實戰寶典。作者融合自己豐富的工程實踐經驗,緊密結合演示套用案例,內容覆蓋了幾乎所有網路爬蟲涉及的核心技術。

基本介紹

  • 中文名:python網路爬蟲技術與實戰
  • 作者:趙國生、王健
  • 出版社機械工業出版社
  • ISBN:9787111674115
內容簡介,圖書目錄,

內容簡介

本書是一本系統、全面地介紹Python網路爬蟲的實戰寶典。作者融合自己豐富的工程實踐經驗,緊密結合演示套用案例,內容覆蓋了幾乎所有網路爬蟲涉及的核心技術。在內容編排上,一步步地剖析算法背後的概念與原理,提供大量簡潔的代碼實現,助你從零基礎開始編程實現深度學習算法。全書按照學習爬蟲所涉及的核心技術從易到難,再到套用的順序分為14章。第1章介紹Python的安裝配置和基礎語法。 第2章介紹爬蟲類型、抓取策略以及網路基礎知識。第3章介紹Python常用庫。第4章介紹正則表達式的語法、匹配規則。第5章講解PIL庫、Tesseract庫和TensorFlow庫的語法、類型和識別方法。第6章介紹抓包利器Fiddler。第7章介紹數據存儲。第8章介紹Scrapy爬蟲框架。第9章介紹多執行緒爬蟲。第10章介紹動態網頁爬蟲。第11章介紹分散式爬蟲。第12章介紹電商網站商品信息爬蟲項目。第13章介紹生活娛樂點評類信息爬蟲。第14章介紹圖片信息類爬蟲項目。

圖書目錄

前言
第1章 Python環境搭建及基礎學習1
1.1 Python 3.6的安裝與配置1
1.1.1 Windows下的安裝1
1.1.2 Linux下的安裝5
1.1.3 macOS下的安裝6
1.2 IDE工具:PyCharm的安裝7
1.3 基礎語法11
1.3.1 個Python程式11
1.3.2 Python命名規範13
1.3.3 行和縮進15
1.3.4 注釋和續行15
1.3.5 Python輸出16
1.4 字元串18
1.4.1 字元串運算符18
1.4.2 字元串內置函式19
1.5 數據結構22
1.5.1 列表22
1.5.2 元組25
1.5.3 集合27
1.5.4 字典29
1.6 控制語句31
1.6.1 條件表達式31
1.6.2 選擇結構32
1.6.3 循環結構33
1.7 函式、模組和包36
1.7.1 函式36
1.7.2 模組40
1.7.3 包42
1.8 檔案的讀寫操作 45
1.8.1 檔案讀寫步驟與打開模式46
1.8.2 檔案的基本操作48
1.8.3 檔案寫入操作52
1.9 面向對象53
1.9.1 類和對象54
1.9.2 封裝性58
1.9.3 繼承性59
1.9.4 多態性60
1.10 本章小結61
練習題61
第2章 爬蟲原理和網路基礎62
2.1 爬蟲是什麼62
2.2 爬蟲的意義62
2.3 爬蟲的原理64
2.4 爬蟲技術的類型66
2.4.1 聚焦爬蟲技術66
2.4.2 通用爬蟲技術67
2.4.3 增量爬蟲技術69
2.4.4 深層網路爬蟲技術70
2.5 爬蟲抓取策略71
2.5.1 深度優先遍歷策略 71
2.5.2 廣度優先遍歷策略71
2.5.3 Partial PageRank策略72
2.5.4 大站優先策略72
2.5.5 反向連結數策略73
2.5.6 OPIC策略 73
2.6 反爬蟲和反反爬蟲73
2.6.1 反爬蟲73
2.6.2 反反爬蟲77
2.7 網路基礎79
2.7.1 網路體系結構79
2.7.2 網路協定79
2.7.3 Socket編程86
2.8 本章小結88
練習題88
第3章 Python常用庫89
3.1 Python庫的介紹89
3.1.1 常用標準庫89
3.1.2 安裝使用第三方庫91
3.2 urllib庫92
3.2.1 urlopen()函式用法93
3.2.2 urlretrieve()函式用法95
3.2.3 URL編碼和URL解碼96
3.2.4 urlparse()和urlsplit()函式用法97
3.3 request庫99
3.3.1 request庫的基本使用99
3.3.2 request庫的高級用法109
3.4 lxml庫113
3.4.1 lxml庫的安裝和使用113
3.4.2 XPath介紹114
3.4.3 XPath語法116
3.4.4 lxml和XPath的結合使用119
3.5 Beautiful Soup庫122
3.5.1 Beautiful Soup庫的安裝和使用123
3.5.2 提取數據125
3.5.3 CSS選擇器131
3.6 實戰案例134
3.6.1 使用Beautiful Soup解析網頁134
3.6.2 微信公眾號爬蟲135
3.6.3 爬取豆瓣讀書TOP500136
3.6.4 使用urllib庫爬取百度貼吧137
3.7 本章小結139
練習題139
第4章 正則表達式140
4.1 概念介紹140
4.2 正則表達式語法141
4.2.1 正則模式的字元141
4.2.2 運算符優先權142
4.3 匹配規則143
4.3.1 單字元匹配規則143
4.3.2 多字元匹配規則144
4.3.3 邊界匹配146
4.3.4 分組匹配147
4.4 re模組常用函式150
4.4.1 re.match函式150
4.4.2 re.search函式152
4.4.3 re.compile函式153
4.4.4 re.sub函式155
4.4.5 re.findall函式156
4.4.6 re.finditer函式157
4.4.7 re.split函式157
4.5 本章小結158
練習題158
第5章 驗證碼159
5.1 PIL庫159
5.1.1 PIL庫的安裝159
5.1.2 PIL庫的常用函式160
5.1.3 PIL庫的套用163
5.1.4 套用PIL到實際開發169
5.2 Tesseract庫172
5.2.1 Tesseract庫的安裝172
5.2.2 Tesseract庫的使用174
5.2.3 Tesseract庫的識別訓練174
5.3 TensorFlow庫180
5.3.1 TensorFlow庫的安裝180
5.3.2 TensorFlow基本操作184
5.3.3 TensorFlow基礎架構186
5.3.4 TensorFlow創建線性回歸模型189
5.3.5 TensorFlow識別知乎驗證碼190
5.4 4種驗證碼的解決思路191
5.5 OCR處理驗證碼194
5.6 實戰案例195
5.7 本章小結199
練習題199
第6章 抓包利器Fiddler200
6.1 Fiddler簡介200
6.2 Fiddler的安裝和配置200
6.2.1 Fiddler的安裝201
6.2.2 Fiddler的配置202
6.3 Fiddler捕獲會話205
6.4 QuickExec命令行的使用207
6.5 Fiddler斷點功能209
6.6 Fiddler的實用工具210
6.7 實戰案例212
6.7.1 使用Fiddler抓取數據並分析212
6.7.2 使用Fiddler抓取HTTPS流量214
6.7.3 使用Fiddler抓取手機套用215
6.8 本章小結219
練習題219
第7章 數據存儲220
7.1 數據的基本存儲220
7.1.1 數據存儲至TXT220
7.1.2 數據存儲至CSV222
7.1.3 數據存儲至JSON223
7.2 數據存儲至MySQL資料庫227
7.2.1 配置MySQL服務227
7.2.

相關詞條

熱門詞條

聯絡我們