Python爬蟲大數據採集與挖掘-微課視頻版

《Python爬蟲大數據採集與挖掘-微課視頻版》是清華大學出版社出版的圖書。

基本介紹

  • 書名:Python爬蟲大數據採集與挖掘-微課視頻版
  • 作者:曾劍平 
內容簡介,圖書目錄,

內容簡介

本書圍繞大數據採集,對採集技術的相關基礎、技術原理、 Python實現技術、大數據挖掘與套用方法 進行了系統介紹。書中全面、完整地覆蓋了各種類型的網路爬蟲及相關的信息處理挖掘技術,並提供了27個與爬蟲技術和套用相關的Python程式。全書共分為四大部分,即概述、基礎篇、技術與實現篇 、大數據挖掘與套用篇。第一部分是概述,首先指出了利用Python採集網際網路大數據的重要性,介紹了 相關技術研究、技術體系、 Py t hon爬蟲採集技術的合規性及套用現狀等; 第二部分是基礎篇,包括 Web伺服器的套用架構以及HTTP、 Robots、 HTML、頁面編碼等相關協定和規範; 第三部分是技術與 實現篇,全面介紹了普通網路爬蟲技術、動態頁面採集方法、主題爬蟲技術、 DeepWeb爬蟲、微博信息採集 、Web信息提取以及反爬蟲技術等,內容涵蓋了各種爬蟲技術實現方法及Python例子; 第四部分是 大數據挖掘與套用篇,介紹了用於爬蟲套用中的典型大數據處理與挖掘技術以及 Web大數據採集的常 見套用模式,並以新聞採集與分析、 SQL注入線上檢測為例介紹了Python爬蟲套用構建方法,將本書介紹的一些關鍵技術、模型和工具貫穿在一起。
本書可以作為高等院校大數據、計算機、信息以及經管、金融等相關專業的教材,也可以作為大數據、計算機、信息以及經管、金融等領域研究人員和專業技術人員的參考書。

圖書目錄

源碼下載
第一部分概述
第1章大數據採集概述
1.1網際網路大數據與採集
1.1.1網際網路大數據來源
1.1.2網際網路大數據的特徵
1.2Python爬蟲大數據採集技術的重要性
1.3爬蟲技術研究及套用現狀
1.4爬蟲技術的套用場景
1.5爬蟲大數據採集的技術體系
1.5.1技術體系構成
1.5.2相關技術
1.5.3技術評價方法
1.6爬蟲大數據採集與挖掘的合規性
1.7爬蟲大數據採集技術的展望
思考題
第二部分基礎篇
第2章Web頁面及相關技術
2.1HTML語言規範
2.1.1HTML標籤
2.1.2HTML整體結構
2.1.3CSS簡述
2.1.4常用標籤
2.1.5HTML語言的版本進化
2.2編碼體系與規範
2.2.1ASCII
2.2.2gb2312/gbk
2.2.3unicode
2.2.4utf8
2.2.5網頁中的編碼和Python處理
2.3Python正則表達式
思考題
第3章Web套用架構與協定
3.1常用的Web伺服器軟體
3.1.1流行的Web伺服器軟體
3.1.2在Python中配置Web伺服器
3.2Web伺服器的套用架構
3.2.1典型的套用架構
3.2.2Web頁面的類型
3.2.3頁面檔案的組織方式
3.3Robots協定
3.3.1Robots協定的來歷
3.3.2Robots協定的規範與實現
3.4HTTP協定
3.4.1HTTP版本的技術特性
3.4.2HTTP報文
3.4.3HTTP頭部
3.4.4HTTP狀態碼
3.4.5HTTPS
3.5狀態保持技術
3.5.1Cookie
3.5.2Session
思考題
第三部分技術與實現篇
第4章普通爬蟲頁面採集技術與Python實現
4.1普通爬蟲的體系架構
4.2Web伺服器連線器
4.2.1整體處理過程
4.2.2DNS快取
4.2.3requests/response的使用方法
4.2.4錯誤和異常的處理
4.3超連結及域名提取與過濾
4.3.1超連結的類型
4.3.2提取方法
4.3.3遵守Robots協定的友好爬蟲
4.4爬行策略與實現
4.4.1爬行策略及設計方法
4.4.2寬度優先和深度優先策略
4.4.3基於PageRank的重要性排序
4.4.4其他策略
4.4.5爬行策略設計的綜合考慮
思考題
第5章動態頁面採集技術與Python實現
5.1動態頁面內容的生成與互動
5.1.1頁面內容的生成方式
5.1.2動態頁面互動的實現
5.2動態頁面採集技術
5.3使用帶參數的URL
5.4利用Cookie和Session
5.5使用Ajax: 以評論型頁面為例
5.5.1獲取URL地址
5.5.2獲取動態請求參數
5.6模擬瀏覽器——以自動登錄信箱為例
思考題
第6章Web信息提取與Python實現
6.1Web信息提取任務及要求
6.2Web頁面內容提取的思路
6.2.1DOM樹
6.2.2提取方法
6.3基於HTML結構的內容提取方法
6.3.1html.parser
6.3.2lxml
6.3.3html5lib
6.3.4BeautifulSoup
6.3.5PyQuery
6.4基於統計的Web內容抽取方法
思考題
第7章主題爬蟲頁面採集技術與Python實現
7.1主題爬蟲的使用場景
7.2主題爬蟲技術框架
7.3主題及其表示
7.4相關度計算
7.4.1主題相關度的計算
7.4.2連結相關度估算
7.4.3頁面內容相關度計算
7.5特定新聞主題採集
思考題
第8章Deep Web爬蟲與Python實現
8.1相關概念
8.2Deep Web的特徵和採集要求
8.3深度網頁內容獲取技術架構
8.3.1領域本體知識庫
8.3.2尋找表單
8.3.3表單處理
8.3.4結果處理
8.4圖書信息採集
思考題
第9章微博信息採集與Python實現
9.1微博信息採集方法概述
9.2微博開放平台授權與測試
9.3在Python中調用微博API採集數據
9.3.1流程介紹
9.3.2微博API及使用方法
9.3.3採集微博用戶個人信息
9.3.4採集微博博文
9.3.5微博API的限制
9.4通過爬蟲採集微博信息
思考題
第10章反爬蟲技術與反反爬蟲技術
10.1兩種技術的概述
10.2反爬蟲技術
10.2.1爬蟲檢測技術
10.2.2爬蟲阻斷技術
10.3反反爬蟲技術
思考題
第四部分大數據挖掘與套用篇
第11章文本信息處理與挖掘技術
11.1文本預處理
11.1.1辭彙切分
11.1.2停用詞過濾
11.1.3詞形規範化
11.1.4Python開源庫jieba的使用
11.2文本的向量空間模型
11.2.1特徵選擇
11.2.2模型表示
11.2.3使用Python構建向量空間表示
11.3文本分類及實現技術
11.3.1分類技術概要
11.3.2分類器技術
11.3.3新聞分類的Python實現
11.4主題及其實現技術
11.4.1主題的定義
11.4.2基於向量空間的主題構建
11.4.3LDA主題模型
11.4.4LDA模型的Python實現
11.5大數據可視化技術
11.5.1大數據可視化方法概述
11.5.2Python開源庫的使用
思考題
第12章網際網路大數據獲取技術的套用
12.1常見套用模式
12.2新聞閱讀器採集與分析
12.2.1目標任務
12.2.2總體思路
12.2.3新聞內容採集與提取
12.2.4新聞分析
12.3爬蟲用於Web網站SQL注入檢測
12.3.1目標任務
12.3.2總體思路
12.3.3Python程式設計
思考題
附錄A代碼與數據
附錄B相關包索引
附錄C爬蟲框架
附錄D書中視頻對應二維碼匯總表
參考文獻

相關詞條

熱門詞條

聯絡我們