《計算傳播學與網路爬蟲》是2021年科學出版社出版的圖書。
基本介紹
- 書名:計算傳播學與網路爬蟲
- 作者:徐健
- 出版社:科學出版社
- 出版時間:2021年11月1日
- 開本:16 開
- 裝幀:平裝
- ISBN:9787030698551
內容簡介,圖書目錄,
內容簡介
本書詳細介紹了計算傳播學與網路爬蟲技術的套用,由淺入深地介紹了計算傳播學與網路爬蟲的概念、發展與套用,重點介紹了八爪魚網路爬蟲工具。本書內容包括導論、網路爬蟲概念綜述、網路爬蟲技術原理、八爪魚軟體概述,以及4個與計算傳播學相關的實戰案例。本書體系完整、內容豐富,尤為注重實戰教學。
本書可以作為普通高校計算傳播學的基礎教材,也可作為職業培訓教育機構的教材及相關技術人員的參考書。
圖書目錄
第1章 導論 1
1.1 計算傳播學概述 1
1.1.1 計算傳播學的發展 2
1.1.2 計算傳播學的概念 2
1.1.3 計算傳播學的基本內容 3
1.1.4 計算傳播學的套用 3
1.2 大數據與人工智慧 4
1.2.1 大數據的概念與發展歷程 5
1.2.2 人工智慧的概念與發展歷程 6
1.2.3 大數據和人工智慧與計算傳播學的關係 7
1.3 計算傳播學與網路爬蟲的關係 7
本章小結 8
第2章 網路爬蟲概念綜述 9
2.1 網路爬蟲簡介 9
2.1.1 概念與作用 9
2.1.2 套用場景 10
2.2 反爬蟲技術 11
2.3 網路爬蟲的算法分析 15
2.3.1 深度優先搜尋算法 16
2.3.2 廣度優先搜尋算法 16
2.3.3 最佳優先搜尋算法 17
2.4 網路爬蟲種類 17
2.4.1 通用網路爬蟲 17
2.4.2 主題網路爬蟲 19
2.4.3 增量式網路爬蟲 20
2.4.4 深層網路爬蟲 21
2.5 網路爬蟲工具 22
2.5.1 八爪魚 22
2.5.2 Python 23
2.5.3 Puppeteer 25
本章小結 27
第3章 網路爬蟲技術原理 28
3.1 Chrome開發者工具 28
3.1.1 Elements面板 30
3.1.2 Network面板 31
3.2 網址分析 33
3.2.1 HTTP介紹 34
3.2.2 URL地址分析 37
3.3 網頁構成 38
3.3.1 HTML 38
3.3.2 CSS與JavaScript 42
3.3.3 網頁類型 45
3.4 模擬登錄與驗證碼 46
3.4.1 模擬登錄場景介紹 46
3.4.2 登錄信息與Cookie簡介 46
3.4.3 模擬登錄驗證處理 56
3.5 代理 58
3.5.1 IP位址 58
3.5.2 代理的作用 59
3.5.3 代理的獲取與使用 59
3.5.4 使用八爪魚軟體設定代理IP位址 61
3.6 解析網頁內容 62
3.6.1 XPath介紹 63
3.6.2 XPath實例 67
本章小結 70
第4章 八爪魚軟體概述 71
4.1 八爪魚軟體簡介 71
4.1.1 八爪魚功能介紹 72
4.1.2 八爪魚工作界面介紹 73
4.2 採集模式 78
4.2.1 模板採集模式 78
4.2.2 智慧型模式 82
4.2.3 自定義模式 85
4.3 步驟參數設定 89
4.3.1 打開網頁 90
4.3.2 點擊元素 92
4.3.3 提取數據 93
4.3.4 循環 95
4.3.5 判斷條件 97
4.3.6 輸入文本 98
4.3.7 識別驗證碼 99
4.3.8 切換下拉選項 100
4.3.9 移動滑鼠到元素上 101
本章小結 102
第5章 基於關鍵字的新聞網頁爬取 103
5.1 新聞簡介 103
5.1.1 新聞的價值 104
5.1.2 新聞的特點 104
5.1.3 新聞的作用 105
5.2 新聞網頁採集需求分析 105
5.2.1 人民網簡介 105
5.2.2 需求介紹 108
5.3 新聞網頁採集流程設計 109
5.3.1 新建任務 109
5.3.2 搜尋 110
5.3.3 自動識別搜尋頁 113
5.3.4 自動識別詳情頁 119
5.3.5 欄位介紹 122
5.3.6 採集設定 123
5.4 新聞網頁採集數據結果 125
本章小結 125
第6章 基於關鍵字的微信公眾號爬取 126
6.1 微信公眾號簡介 126
6.1.1 微信公眾號的作用 126
6.1.2 微信公眾號與新媒體傳播 127
6.2 微信公眾號採集需求分析 128
6.3 微信公眾號採集流程設計 129
6.3.1 新建任務 129
6.3.2 登錄 130
6.3.3 關鍵字列表循環 131
6.3.4 設定翻頁循環 133
6.3.5 循環列表 136
6.3.6 點擊進入正文 139
6.3.7 獲取正文信息 140
6.3.8 採集設定 143
6.4 微信公眾號採集數據結果查看 144
本章小結 144
第7章 微博博文評論爬取 145
7.1 微博簡介 145
7.1.1 微博的傳播特徵 145
7.1.2 微博的作用 147
7.2 微博評論採集需求分析 148
7.2.1 微博可獲取數據 148
7.2.2 網址分析 149
7.2.3 流程與步驟 150
7.3 微博評論採集流程設計 150
7.3.1 新建任務 150
7.3.2 判斷是否要登錄 151
7.3.3 循環翻頁 157
7.3.4 循環列表 159
7.3.5 獲取正文信息 163
7.3.6 啟動採集 166
7.4 微博評論採集數據結果查看 167
本章小結 168
第8章 網路輿情熱點數據的獲取與追蹤 169
8.1 背景說明 169
8.1.1 輿情熱點發展的過程 169
8.1.2 輿情熱點的獲取 170
8.2 熱點數據採集需求分析 173
8.2.1 百度指數 173
8.2.2 百度搜尋風雲榜 176
8.3 熱點數據採集流程設計 178
8.3.1 百度指數 178
8.3.2 百度搜尋風雲榜 184
8.4 熱點數據採集數據結果查看 192
本章小結 193
參考文獻 194