《數據採集與預處理(微課版)》是2024年人民郵電出版社出版的圖書。
基本介紹
- 中文名:數據採集與預處理(微課版)
- 作者:安俊秀、徐傳運、戴宇睿
- 語言:中文
- 出版時間:2024年5月1日
- 出版社:人民郵電出版社
- ISBN:9787115589903
- 開本:16 開
- 裝幀:平裝
內容簡介,圖書目錄,
內容簡介
本書詳細闡述了大數據領域數據採集與預處理的相關理論和技術,全面講解了數據採集與預處理的全流程及在多領域的套用案例。本書共8章,包括數據採集與預處理概述、數據採集與存儲、數據採集進階、數據清洗、數據規整與分組聚合、豆瓣電影排行榜數據採集與預處理、使用Scrapy框架與Selenium採集股市每日點評數據並可視化、房產數據預處理。 本書可作為高等院校大數據、人工智慧、計算機等專業的教材使用,也可供相關科技人員參考。
圖書目錄
第 1章 數據採集與預處理概述
1.1 數據採集簡介
1.1.1 數據採集的工具
1.1.2 爬蟲的原理與分類
1.1.3 網路爬蟲核心流程
1.1.4 爬蟲的套用場景
1.2 數據預處理簡介
1.2.1 數據預處理的目的與意義
1.2.2 數據預處理的流程
1.2.3 數據預處理的工具介紹
1.3 Python數據採集與預處理常用庫
1.3.1 請求庫
1.3.2 解析庫
1.3.3 數據存儲庫
1.3.4 處理庫
1.4 習題
第 2章 數據採集與存儲
2.1 數據類型與操縱
2.1.1 數據類型介紹
2.1.2 JSON格式數據
2.1.3 CSV格式數據
2.2 網頁抓取:爬蟲基礎
2.2.1 爬蟲基本流程介紹
2.2.2 HTTP基本原理
2.2.3 網頁基礎
2.2.4使用urllib庫
2.2.5使用requests庫請求網站
2.2.6正則表達式提取數據
2.2.7代理的使用
2.2.8使用Cookie登錄
2.3解析庫的使用
2.3.1使用Beautiful Soup解析網頁
2.3.2使用XPath來處理HTML
2.4數據存儲
2.4.1存儲為JSON格式
2.4.2存儲為CSV格式
2.4.3存儲到MySQL資料庫中
2.5 習題
第3章 數據採集進階
3.1 Ajax數據爬取
3.1.1 什麼是Ajax
3.1.2 為什麼要學習Ajax爬取
3.1.3 怎樣進行Ajax數據的爬取
3.2 使用Selenium抓取動態渲染頁面
3.2.1 Selenium的基本介紹與安裝方法
3.2.2 Selenium的簡單使用
3.2.3 Selenium的套用實例
3.2.4 Selenium的高級操作
3.3 爬蟲框架介紹
3.3.1 爬蟲框架介紹
3.3.2 爬蟲框架機制
3.4 Scrapy爬蟲框架
3.4.1 Scrapy的簡介與安裝
3.4.2 Scrapy的基本使用
3.4.3 創建Scrapy項目
3.4.4 編寫Spider
3.4.5 編寫Item Pipeline
3.4.6 設定Settings模組
3.5 習題
第4章 數據清洗
4.1 數據清洗概述
4.2 缺失數據處理
4.2.1 數據缺失的原因
4.2.2 缺失值的主要處理方法
4.3 異常值和重複值處理
4.3.1 刪除重複值
4.3.2 檢測異常值
4.3.3 過濾異常值
4.4 數據轉換
4.4.1 數據類型轉換
4.4.2 用函式或映射進行數據轉換
4.4.3 重命名軸索引
4.4.4 連續數據離散化
4.4.5 啞變數處理類別型數據
4.4.6 數據標準化
4.5 習題
第5章 數據規整與分組聚合
5.1 數據規整
5.1.1 數據聯合與合併
5.1.2 分層索引
5.1.3 數據重塑
5.2 數據分組
5.2.1 創建分組數據
5.2.2 運用GroupBy機制分組
5.3 數據聚合
5.3.1 groupby中預置的聚合方法
5.3.2 aggregate()函式與transform()函式
5.3.3 使用apply()函式
5.4 習題
第6章 豆瓣電影排行榜數據採集與預處理
6.1 豆瓣電影榜數據採集目標
6.2 豆瓣網頁結構分析
6.2.1 巨觀整體頁面分析
6.2.2 微觀具體信息爬取
6.3 創建爬蟲
6.3.1 準備URL
6.3.2 請求及回響
6.3.3 提取數據
6.3.4 保存數據
6.4 數據預處理
6.5 數據可視化
6.6 習題
第7章 使用Scrapy框架與Selenium數據採集與可視化
7.1 採集目標和準備工作
7.2 大數據網頁結構分析
7.3 使用Scrapy與Selenium爬取信息
7.3.1 編寫item.py與spider.py
7.3.2 編寫middlewares.py
7.3.3 編寫pipelines.py
7.3.4 設定settings.py
7.3.5 運行結果
7.4 某電商數據預處理與可視化
7.4.1 數據預處理
7.4.2 數據可視化
7.5 習題
第8章 房產數據預處理
8.1 研究背景和目標分析
8.2 數據描述與探索
8.3 數據預處理
8.3.1 屬性規約
8.3.2 數據缺失值處理
8.3.3 數據異常值處理
8.3.4 數據轉換
8.3.5 保存數據
8.4 習題