數據清洗與ETL技術

《數據清洗與ETL技術》是清華大學出版社於2022年出版的書籍,作者是馮廣、龔旭輝、周瀚章、李嘉、徐啟東、曾虎、孔立斌、石鳴鳴。

基本介紹

  • 中文名:數據清洗與ETL技術
  • 作者:馮廣、龔旭輝、周瀚章、李嘉、徐啟東、曾虎、孔立斌、石鳴鳴
  • 出版社:清華大學出版社
  • 出版時間:2022年4月1日
  • 定價:48 元
  • ISBN:9787302600817
內容簡介,目錄,

內容簡介

本書為大數據時代下的產物,由淺入深地介紹大數據及其相關知識,在大數據的背景下著重介紹ETL數據處理技術,同時引入數據清洗的知識,理論與實際相結合,突出所長。在理論上,本書突出重點與難點,較為系統地介紹大數據的各項基本技術。在實踐操作上,本書貼近生活,切實理解,緊跟實驗進行,並從中萃取精華。同時本書還介紹ETL技術的主流工具,結合當下一些項目進行運用,並綜合課後思考題,使讀者在學習中體會大數據的樂趣,翱遊在大數據的海洋中。 本書可作為高校新興專業——數據科學專業的配套教材,也可作為其他專業的選修課教材,還可作為初學者的學習教程。

目錄

第1章從大數據到ETL1
1.1大數據概述1
1.1.1大數據的定義2
1.1.2大數據的基本性質2
1.1.3大數據的影響4
1.1.4大數據帶來的挑戰7
1.2科學處理數據9
1.3ETL簡介10
1.3.1ETL的基本定義10
1.3.2ETL的基本過程11
1.3.3ETL的架構體系11
1.3.4ETL的必要性13
1.3.5ETL的分類14
1.3.6基本ETL過程與數據清理的區別14
1.3.7ETL現狀與發展15
1.4數據抽取16
1.4.1數據抽取的概念16
1.4.2分類抽取16
1.4.3數據抽取的原則和方法17
1.5數據轉換17
1.5.1數據轉換的概念17
1.5.2類型轉換17
1.6數據載入18
1.6.1數據載入的概念18
1.6.2數據載入方式18
1.7實驗任務——處理論文的年份19
1.8小結23
1.9習題23第2章數據抽取25
2.1數據源25
2.1.1關係資料庫25
2.1.2非關係資料庫27
2.1.3通用程式庫28
2.2數據抽取方式29
2.2.1全量抽取29
2.2.2增量抽取29
2.2.3增量抽取的比較分析30
2.3Hadoop的數據抽取32
2.3.1Hadoop簡介32
2.3.2Hadoop研究現狀32
2.3.3環境搭建34
2.3.4數據採集34
2.4Web檔案的數據抽取35
2.4.1Web檔案簡介35
2.4.2主要工作35
2.4.3主要工具——Connotate35
2.4.4套用分析——基...
2.5資料庫的數據抽取41
2.5.1資料庫簡介41
2.5.2主要套用——基於ETL工具軟體的數據抽取43
2.6文本檔案的數據抽取44
2.6.1文本檔案數據抽取及套用領域44
2.6.2網路爬蟲44
2.7實驗任務——MySQL環境搭建及數據抽取46
2.7.1MySQL在Windows下的搭建46
2.7.2MySQL在Linux下的搭建47
2.7.3案例分析50
2.8小結54
2.9習題54第3章數據轉換56
3.1數據轉換56
3.1.1數據轉換的概念56
3.1.2數據轉換的標準57
3.1.3數據轉換的方法57
3.1.4數據之間的關聯58
3.2數據清洗59
3.2.1數據清洗的主要內容59
3.2.2數據清洗研究現狀60
3.2.3數據清洗的必要性61
3.2.4數據清洗的問題61
3.2.5數據清洗對工具的要求62
3.2.6數據清洗的流程62
3.2.7數據清洗的原理63
3.2.8數據清洗的方法63
3.3Python下的數據清洗65
3.3.1Python概述65
3.3.2Python的特點66
3.3.3Python Pandas——數據清洗67
3.4數據轉換工具75
3.4.1Data Stage75
3.4.2Kettle78
3.4.3Informatica PowerCenter81
3.4.4ETL Automation82
3.4.5SSIS82
3.4.6幾種工具之間的比較83
3.5實驗任務——Kettle的分類安裝及案例分析84
3.5.1Kettle的分類安裝84
3.5.2案例分析——利用Kettle處理錯誤代碼行84
3.6小結87
3.7習題87第4章數據載入89
4.1數據載入89
4.1.1數據載入的概念89
4.1.2數據載入機制89
4.2數據載入技術90
4.2.1載入技術90
4.2.2全量數據載入流程91
4.3數據倉庫93
4.3.1數據倉庫基本內容94
4.3.2數據倉庫架構97
4.3.3數據倉庫設計98
4.3.4數據倉庫的規劃和需求分析99
4.3.5數據倉庫的建模100
4.3.6數據倉庫的物理模型分析107

相關詞條

熱門詞條

聯絡我們