大數據分析:Python爬蟲、數據清洗和數據可視化

大數據分析:Python爬蟲、數據清洗和數據可視化

《大數據分析:Python爬蟲、數據清洗和數據可視化》是清華大學出版社出版的一本圖書。

基本介紹

  • 書名:大數據分析:Python爬蟲、數據清洗和數據可視化
  • 作者:黃源 蔣文豪 徐受蓉
  • 出版社:清華大學出版社
  • ISBN:9787302530541 
圖書目錄,圖書內容,

圖書目錄

第1章大數據
1.1大數據概述
1.1.1大數據介紹
1.1.2大數據的特徵
1.1.3大數據技術套用與基礎
1.2大數據的意義
1.2.1大數據的國家戰略意義
1.2.2大數據的企業意義
1.2.3我國大數據市場的預測
1.3大數據的產業鏈分析
1.3.1技術分析
1.3.2運營分析
1.4本章小結
1.5實訓
習題
第2章爬蟲與大數據
2.1爬蟲概述
2.1.1爬蟲介紹
2.1.2爬蟲的地位與作用
2.2Python介紹
2.2.1Python開發環境搭建
2.2.2編寫Python程式
2.2.3Python數據類型
2.3爬蟲相關知識
2.3.1了解網頁結構
2.3.2Python與爬蟲
2.3.3基礎爬蟲框架
2.4利用爬蟲抓取網頁內容
2.4.1觀察與分析頁面
2.4.2抓取過程分析
2.4.3獲取頁面內容
2.5本章小結
2.6實訓
習題
第3章Scrapy爬蟲
3.1Scrapy爬蟲概述
3.2Scrapy原理
3.2.1Scrapy框架的架構
3.2.2Request對象和Response對象
3.2.3Select對象
3.2.4Spider開發流程
3.3Scrapy的開發與實現
3.3.1Scrapy爬蟲開發流程
3.3.2創建Scrapy項目並查看結構
3.3.3編寫代碼並運行爬蟲
3.4本章小結
3.5實訓
習題
第4章資料庫連線與查詢
4.1資料庫
4.1.1資料庫概述
4.1.2關係資料庫設計
4.2MySQL資料庫
4.2.1MySQL資料庫概述
4.2.2MySQL資料庫下載、安裝與運行
4.2.3MySQL資料庫命令行入門
4.3使用Python操作MySQL資料庫
4.3.1pymysql安裝與使用
4.3.2Python連線MySQL資料庫
4.4本章小結
4.5實訓
習題
第5章數據可視化基礎與套用
5.1數據可視化
5.1.1數據可視化概述
5.1.2數據可視化工具
5.1.3數據可視化圖表
5.2matplotlib可視化基礎
5.2.1numpy庫
5.2.2matplotlib認識與安裝
5.2.3matplotlib測試
5.2.4matplotlib.pyplot庫
5.3matplotlib可視化繪圖
5.3.1繪製線性圖形
5.3.2繪製柱狀圖形
5.3.3繪製直方圖
5.3.4繪製散點圖
5.3.5繪製極坐標圖
5.3.6繪製餅圖
5.4pyecharts可視化套用
5.5本章小結
5.6實訓
習題
第6章大數據存儲與清洗
6.1大數據存儲
6.2數據清洗
6.2.1數據清洗概述
6.2.2數據清洗的原理
6.2.3數據清洗的流程
6.2.4數據清洗的工具
6.3數據標準化
6.3.1數據標準化的概念
6.3.2數據標準化的方法
6.3.3數據標準化的實例
6.4本章小結
6.5實訓
習題
第7章數據格式與編碼技術
7.1檔案格式
7.2數據類型與編碼
7.2.1數據類型概述
7.2.2字元編碼
7.2.3數據轉換
7.3Kettle數據清洗與轉換工具的使用
7.3.1Kettle概述
7.3.2Kettle的安裝與使用
7.4CSV格式的數據轉換
7.4.1CSV格式概述
7.4.2CSV與JSON檔案的轉換
7.5本章小結
7.6實訓
習題
第8章數據抽取與採集
8.1數據抽取
8.2文本抽取與實現
8.2.1文本檔案抽取
8.2.2CSV檔案抽取
8.2.3JSON檔案抽取
8.3網頁數據抽取與實現
8.3.1網頁數據抽取
8.3.2Excel抽取網頁數據
8.3.3Kettle抽取網頁數據
8.4數據採集與實現
8.5本章小結
8.6實訓
習題
第9章pandas數據分析與清洗
9.1認識pandas
9.2pandas語法與使用
9.3pandas讀取與清洗數據
9.3.1數據準備
9.3.2從CSV中讀取數據
9.3.3pandas數據清洗
9.4pandas數據可視化
9.4.1pandas繪圖概述
9.4.2pandas繪圖方法
9.5本章小結
9.6實訓
習題
第10章數據分析與清洗綜合實訓
10.1數據清洗實訓
10.1.1使用Kettle對生成的隨機數實現欄位選擇
10.1.2使用Kettle連線不同的數據表
10.1.3使用Kettle過濾數據表
10.1.4使用Kettle連線MySQL資料庫,並輸出查詢結果
10.2數據分析實訓
10.3本章小結
習題

圖書內容

在全書中介紹了大數據概述、爬蟲與大數據相關技術、Scrapy 爬蟲、資料庫連線與查詢、數據可視化、數據存儲與清洗概述 、數據格式與編碼技術介紹、數據抽取與採集、pandas 數據清洗。每個階段都重點強化實訓,實現了理論與實踐的結合。教材中套用案例來展開知識點的講解,對重要的、核心的知識點加大練習的比例,以達到熟練運用的目的。

相關詞條

熱門詞條

聯絡我們