Python 3.7網路爬蟲快速入門

Python 3.7網路爬蟲快速入門

《Python 3.7網路爬蟲快速入門》2019年10月清華大學出版社出版的圖書,作者是王啟明。

基本介紹

  • 書名:Python  3.7網路爬蟲快速入門
  • 作者:王啟明
  • ISBN:9787302536475
  • 定價:49元
  • 出版社:清華大學出版社
  • 出版時間:2019.10
內容簡介,圖書目錄,

內容簡介

Python 3.7正在成為目前流行的程式語言,而網路爬蟲又是Python網路套用中的重要技術,二者的碰撞產生了巨大的火花。本書在這個背景下編寫而成,詳細介紹Python 3.7網路爬蟲技術。
本書分為11章,分別介紹Python 3.7爬蟲開發相關的基礎知識、lxml模組、BeautifulSoup模組、正則表達式、檔案處理、多執行緒爬蟲、圖形識別、Scrapy框架、PyQuery模組等。基本上每一章都配有眾多小範例程式與一個大實戰案例。作者還為每一章分別錄製教學視頻供讀者自學參考。
本書內容詳盡、示例豐富,是有志於學習Python網路爬蟲技術初學者必備的參考書,同時也可作為Python愛好者拓寬知識領域、提升編程技術的參考書。

圖書目錄

第1章 簡識PYTHON 1
1.1 了解PYTHON 1
1.1.1 Python的概念 1
1.1.2 有趣的Python程式 2
1.2 集成開發環境 4
1.2.1 安裝Python 3.7 4
1.2.2 從IDLE啟動Python 6
1.3 編寫自己的第一個PYTHON程式:一個簡單的問候 8
1.4 小結 11
第2章 PYTHON語法速覽 12
2.1 數據類型與變數 12
2.1.1 數據類型 12
2.1.2 變數 14
2.2 運算符 15
2.2.1 算術運算符 16
2.2.2 比較運算符 17
2.2.3 賦值運算符 17
2.2.4 邏輯運算符 18
2.2.5 位運算符 19
2.2.6 成員運算符 20
2.2.7 身份運算符 21
2.2.8 運算符的優先權 21
2.3 使用複合類型 21
2.3.1 列表 22
2.3.2 元組 26
2.3.3 字典 26
2.3.4 集合 27
2.4 流程控制結構 29
2.4.1 選擇結構 29
2.4.2 重複結構(循環結構) 30
2.5 小結 33
第3章 函 數 34
3.1 認識函式 34
3.1.1 什麼是函式 34
3.1.2 創建函式 35
3.2 使用函式 35
3.2.1 參數 36
3.2.2 返回值 38
3.2.3 函式的遞歸 39
3.3 實踐一下 40
3.3.1 實踐一:編寫一個函式 40
3.3.2 實踐二:遍歷與計數 41
3.4 小結 42
第4章 LXML模組和XPATH語法 43
4.1 LXML模組 43
4.1.1 什麼是模組 43
4.1.2 關於lxml模組 44
4.1.3 lxml模組的安裝 44
4.1.4 lxml庫的用法 46
4.2 XPATH語法 46
4.2.1 基本語法 46
4.2.2 基本操作 47
4.2.3 lxml庫的用法 49
4.2.4 XPath範例程式測試 50
4.3 爬蟲LXML解析實戰 53
4.3.1 爬取豆瓣網站 53
4.3.2 爬取電影天堂 55
4.3.3 爬取貓眼電影 58
4.3.4 爬取騰訊招聘網 61
4.3.5 關於HTML 63
4.4 小結 63
第5章 BEAUTIFULSOUP庫 64
5.1 簡識BEAUTIFULSOUP 4 64
5.1.1 安裝與配置 64
5.1.2 基本用法 66
5.2 BEAUTIFULSOUP 對象 67
5.2.1 創建BeautifulSoup對象 67
5.2.2 4類對象 70
5.2.3 遍歷文檔樹 74
5.2.4 搜尋文檔樹 78
5.3 方法和CSS選擇器 81
5.3.1 find類方法 81
5.3.2 CSS選擇器 82
5.4 爬取示範:使用BEAUTIFULSOUP爬取電影天堂 85
5.4.1 基本思路 85
5.4.2 實際爬取 85
5.5 小結 87
第6章 正則表達式 88
6.1 了解正則表達式 88
6.1.1 基本概念 88
6.1.2 re模組 89
6.1.3 compile()方法 89
6.1.4 match()方法 90
6.1.5 group()和groups()方法 90
6.1.6 search()方法 90
6.1.7 findall()方法 92
6.1.8 finditer()方法 93
6.1.9 split()方法 94
6.1.10 sub()方法 94
6.2 抓取 95
6.2.1 抓取標籤間的內容 95
6.2.2 抓取tr\td標籤間的內容 98
6.2.3 抓取標籤中的參數 99
6.2.4 字元串處理及替換 101
6.3 爬取實戰 102
6.3.1 獲取數據 103
6.3.2 篩選數據 104
6.3.3 保存數據 107
6.3.4 顯示數據 107
6.4 總結 108
第7章 JSON檔案處理、CSV檔案處理和MYSQL資料庫操作 109
7.1 簡識JSON 109
7.1.1 什麼是JSON 109
7.1.2 字典和列錶轉JSON 110
7.1.3 將JSON數據轉儲到檔案中 111
7.1.4 將一個JSON字元串載入為Python對象 111
7.1.5 從檔案中讀取JSON 112
7.2 CSV檔案處理 113
7.2.1 讀取CSV檔案 113
7.2.2 把數據寫入CSV檔案 114
7.2.3 練習 115
7.3 MYSQL資料庫 117
7.3.1 MySQL資料庫的安裝 117
7.3.2 安裝MySQL模組 127
7.3.3 連線MySQL 127
7.3.4 執行SQL語句 128
7.3.5 創建表 129
7.3.6 插入數據 130
7.3.7 查看數據 132
7.3.8 修改數據 133
7.3.9 刪除數據 135
7.3.10 實踐操作 136
7.4 小結 139
第8章 多執行緒爬蟲 140
8.1 關於多執行緒 140
8.1.1 基本知識 140
8.1.2 多執行緒的適用範圍 141
8.2 多執行緒的實現 142
8.2.1 使用_thread模組創建多執行緒 142
8.2.2 關於Threading模組 145
8.2.3 使用函式方式創建執行緒 146
8.2.4 傳遞可調用的類的實例來創建執行緒 148
8.2.5 派生子類並創建子類的實例 149
8.3 使用多進程 150
8.3.1 創建子進程 150
8.3.2 將進程定義為類 151
8.3.3 創建多個進程 152
8.4 爬取示範:多執行緒爬取豆瓣電影 153
8.4.1 使用多進程進行爬取 154
8.4.2 使用多執行緒進行爬取 156
8.5 小結 158
第9章 圖形驗證識別技術 159
9.1 圖像識別開源庫:TESSERACT 159
9.1.1 安裝Tesseract 159
9.1.2 設定環境變數 164
9.1.3 驗證安裝 166
9.2 對網路驗證碼的識別 168
9.2.1 讀取網路驗證碼並識別 168
9.2.2 對驗證碼進行轉化 169
9.3 小結 170
第10章 SCRAPY框架 171
10.1 了解SCRAPY 171
10.1.1 Scrapy框架概述 171
10.1.2 安裝 173
10.2 開發SCRAPY的過程 176
10.2.1 Scrapy開發步驟 176
10.2.2 Scrapy保存信息的格式 177
10.2.3 項目中各個檔案的作用 178
10.3 爬蟲範例 179
10.3.1 Scrapy爬取美劇天堂 179
10.3.2 Scrapy爬取豆瓣網 182
10.3.3 Scrapy爬取豆瓣網II 186
10.4 總結 189
第11章 PYQUERY模組 190
11.1 PYQUERY模組 190
11.1.1 什麼是PyQuery模組 190
11.1.2 PyQuery模組的安裝 190
11.2 PYQUERY模組用法 191
11.2.1 使用字元串初始化PyQuery對象 191
11.2.2 使用檔案初始化PyQuery對象 192
11.2.3 使用URL初始化PyQuery對象 193
11.3 CSS篩選器的使用 194
11.3.1 基本CSS選擇器 194
11.3.2 查找節點 195
11.3.3 遍歷結果並輸出 197
11.3.4 獲取文本信息 198
11.4 爬蟲PYQUERY解析實戰 200
11.4.1 爬取貓眼票房 200
11.4.2 爬取微博熱搜 201
11.5 小結 202

相關詞條

熱門詞條

聯絡我們