Python爬蟲大數據採集與挖掘-微課視頻版

內容簡介

本書圍繞大數據採集,對採集技術的相關基礎、技術原理、 Python實現技術、大數據挖掘與套用方法進行了系統介紹。書中全面、完整地覆蓋了各種類型的網路爬蟲及相關的信息處理挖掘技術,並提供了27個與爬蟲技術和套用相關的Python程式。全書共分為四大部分,即概述、基礎篇、技術與實現篇、大數據挖掘與套用篇。第一部分是概述,首先指出了利用Python採集網際網路大數據的重要性,介紹了相關技術研究、技術體系、 Py t hon爬蟲採集技術的合規性及套用現狀等; 第二部分是基礎篇,包括 Web伺服器的套用架構以及HTTP、 Robots、 HTML、頁面編碼等相關協定和規範; 第三部分是技術與實現篇,全面介紹了普通網路爬蟲技術、動態頁面採集方法、主題爬蟲技術、 DeepWeb爬蟲、微博信息採集、Web信息提取以及反爬蟲技術等,內容涵蓋了各種爬蟲技術實現方法及Python例子; 第四部分是大數據挖掘與套用篇,介紹了用於爬蟲套用中的典型大數據處理與挖掘技術以及 Web大數據採集的常見套用模式,並以新聞採集與分析、 SQL注入線上檢測為例介紹了Python爬蟲套用構建方法,將本書介紹的一些關鍵技術、模型和工具貫穿在一起。

本書可以作為高等院校大數據、計算機、信息以及經管、金融等相關專業的教材,也可以作為大數據、計算機、信息以及經管、金融等領域研究人員和專業技術人員的參考書。

圖書目錄

源碼下載

第一部分概述

第1章大數據採集概述

1.1網際網路大數據與採集

1.1.1網際網路大數據來源

1.1.2網際網路大數據的特徵

1.2Python爬蟲大數據採集技術的重要性

1.3爬蟲技術研究及套用現狀

1.4爬蟲技術的套用場景

1.5爬蟲大數據採集的技術體系

1.5.1技術體系構成

1.5.2相關技術

1.5.3技術評價方法

1.6爬蟲大數據採集與挖掘的合規性

1.7爬蟲大數據採集技術的展望

思考題

第二部分基礎篇

第2章Web頁面及相關技術

2.1HTML語言規範

2.1.1HTML標籤

2.1.2HTML整體結構

2.1.3CSS簡述

2.1.4常用標籤

2.1.5HTML語言的版本進化

2.2編碼體系與規範

2.2.1ASCII

2.2.2gb2312/gbk

2.2.3unicode

2.2.4utf8

2.2.5網頁中的編碼和Python處理

2.3Python正則表達式

思考題

第3章Web套用架構與協定

3.1常用的Web伺服器軟體

3.1.1流行的Web伺服器軟體

3.1.2在Python中配置Web伺服器

3.2Web伺服器的套用架構

3.2.1典型的套用架構

Python爬蟲大數據採集與挖掘-微課視頻版

基本介紹

內容簡介

圖書目錄

相關詞條

熱門詞條