《數據採集與預處理》是2019年11月人民郵電出版社出版的圖書,作者是米洪、張鴒。
基本介紹
- 書名:數據採集與預處理
- 作者:米洪、張鴒
- 出版社:人民郵電出版社
- 出版時間:2019年11月
- 頁數:184 頁
- 定價:39.8 元
- 開本:16 開
- 裝幀:平裝
- ISBN:9787115519153
- 語種:中文版
內容簡介,圖書目錄,
內容簡介
本書以任務驅動為主線,圍繞企業級套用進行項目任務設計,主要內容包括數據採集與預處理準備、網路爬蟲實踐、日誌數據採集實踐和數據預處理實踐,全面地講述了Scrapy、Flume、Pig、Kettle、Pandas、OpenRefine等技術,以及urllib、Selenium基本庫和BeautifulSoup解析庫的相關知識與套用案例。
圖書目錄
項目1
數據採集與預處理準備 1
學習目標 1
項目描述 1
任務1 認識數據採集技術,熟悉數據採集平台 1
任務描述 1
任務目標 2
知識準備 2
任務實施 10
任務2 認識數據預處理技術 13
任務描述 13
任務目標 13
知識準備 13
任務實施 19
項目2
網路爬蟲實踐 24
學習目標 24
項目描述 24
任務1 使用urllib爬取北京公交線路信息 24
任務描述 24
任務目標 25
知識準備 25
任務實施 48
任務2 使用Selenium爬取淘寶網站信息 58
任務描述 58
任務目標 58
知識準備 58
任務實施 69
任務3 使用Scrapy爬取北京公交信息 75
任務描述 75
任務目標 75
知識準備 75
任務實施 78
任務4 創新與拓展 86
任務描述 86
任務目標 86
項目3
日誌數據採集實踐 87
學習目標 87
項目描述 87
任務1 Flume的安裝和配置 87
任務描述 87
任務目標 88
知識準備 88
任務實施 95
任務2 Flume採集數據上傳到集群 105
任務描述 105
任務目標 106
知識準備 106
任務實施 110
任務3 創新與拓展 118
任務描述 118
任務目標 118
項目4
數據預處理實踐 119
學習目標 119
項目描述 119
任務1 用Pig進行數據預處理 119
任務描述 119
任務目標 120
知識準備 120
任務實施 134
任務2 用Kettle進行數據預處理 137
任務描述 137
任務目標 137
知識準備 137
任務實施 139
任務3 用Pandas進行數據預處理 150
任務描述 150
任務目標 150
知識準備 150
任務實施 153
任務4 用OpenRefine進行數據預處理 155
任務描述 155
任務目標 155
知識準備 155
任務實施 157
任務5 用Flume Interceptor對日誌信息進行數據預處理 162
任務描述 162
任務目標 163
知識準備 163
任務實施 167
任務6 創新與拓展 176
任務描述 176
任務目標 176