大數據採集與預處理技術

大數據採集與預處理技術

《大數據採集與預處理技術》是2018年中南大學出版社出版的圖書。

基本介紹

  • 中文名:大數據採集與預處理技術
  • 作者:劉麗敏
  • 出版社:中南大學出版社
  • 出版時間:2018年
  • 開本:16 開
  • 裝幀:平裝
  • ISBN:9787548734116
內容簡介,圖書目錄,

內容簡介

  《大數據採集與預處理技術》以大數據關鍵技術為主線,重點介紹了大數據採集技術和數據預處理技術。該書共7章。第1章為大數據概述,重點闡述了大數據的概念、大數據關鍵技術以及大數據採集和數據預處理的重要性,並對該書內容進行了概述;第2章在闡述傳統數據採集相關技術基礎上,從數據發展出發,剖析了大數據採集的特點和相關技術;第3章介紹了常用的大數據採集架構;第4章介紹了針對系統數據來源複雜、數據量大的企業數據的大數據遷移技術;第5章介紹了網際網路數據抓取與處理技術;第6章介紹了數據預處理技術,包括數據清洗、數據集成、數據變換和數據歸約等技術;第7章首先闡述了Hadoop相關理論基礎,然後以淘寶網數據為例,介紹了大數據從數據採集、數據預處理、數據分析以及數據可視化的綜合套用實例。
  《大數據採集與預處理技術》可作為高等院校大數據相關專業的教學用書,也可以作為從事大數據相關工作的工程技術人員的參考用書。

圖書目錄

第1章 大數據概述
1.1 大數據的概念
1.2 大數據關鍵技術
1.3 大數據採集與數據預處理技術
1.3.1 大數據採集技術
1.3.2 數據預處理技術
1.4 小結
習題
第2章 數據採集基礎
2.1 傳統數據採集技術
2.1.1 數據採集概述
2.1.2 數據採集系統架構
2.1.3 數據採集關鍵技術
2.2 大數據採集基礎
2.2.1 數據的發展
2.2.2 大數據來源
2.2.3 大數據採集技術
2.3 小結
習題
第3章 大數據採集架構
3.1 概述
3.2 Chukwa數據採集
3.3 Flume:數據採集
3.4 Scribe數據採集
3.5 Kafka數據採集
3.7 小結
習題
第4章 大數據遷移技術
4.1 數據遷移概念
4.2 數據遷移相關技術
4.2.1 基於主機的遷移方式
4.2.2 基於存儲的遷移方式
4.2.3 備份恢復的方式
4.2.4 基於主機邏輯卷的數據遷移
4.2.5 基於資料庫的遷移技術
4.2.6 伺服器虛擬化的遷移
4.2.7 其他數據遷移技術
4.3 數據遷移工具
4.3.1 Apache Sqoop
4.3.2 ETL
4.4 Kettle數據遷移實例
4.5 小結
習題
第5章 網際網路數據抓取與處理技術
5.1 網路爬蟲概述
5.1.1 網路爬蟲的概念
5.1.2 網路爬蟲的抓取策略
5.1.3 網頁最新策略
5.2 常用網路爬蟲方法
5.2.1 批量型爬蟲

相關詞條

熱門詞條

聯絡我們