數據清洗(2021年清華大學出版社出版的圖書)

本詞條是多義詞,共6個義項
更多義項 ▼ 收起列表 ▲

《數據清洗》是2021年清華大學出版社出版的圖書,作者是黃源。

基本介紹

  • 中文名:數據清洗
  • 作者:黃源
  • 出版時間:2021年 
  • 出版社:清華大學出版社
  • ISBN:9787302577478
內容簡介,圖書目錄,

內容簡介

本書的編寫目的是向讀者介紹數據清洗技術的基本概念與套用。全書共10章,分別為數據清洗概述、檔案格式、Web數據抽取、網路爬蟲、Kettle數據清洗、數據遷移、文本數據處理、Python數據清洗、DataCleaner數據分析與清洗以及數據清洗綜合實訓。本書將理論與實踐操作相結合,通過大量的案例幫助讀者快速了解和套用數據清洗相關技術,並對書中重要的、核心的知識點加大練習力度,以達到熟練套用的目的。 本書可作為高等學校大數據、人工智慧、雲計算等專業的教材,可也作為大數據愛好者的參考書。

圖書目錄

第1章數據清洗概述
1.1數據清洗基礎
1.1.1數據清洗的定義
1.1.2數據清洗的原理
1.1.3數據清洗的流程
1.1.4數據清洗的常用方法
1.1.5數據清洗的評估描述
1.1.6數據清洗中的常用評測數據集
1.2數據質量與數據倉庫
1.2.1數據質量的定義
1.2.2常見的數據質量問題
1.2.3數據質量與數據清洗
1.2.4數據倉庫與ETL
1.2.5數據映射
1.2.6主數據與元數據
1.3數據清洗中的統計基礎
1.3.1描述性統計
1.3.2推論統計
1.3.3隨機變數
1.4數據清洗環境與常用工具
1.4.1數據清洗環境介紹
1.4.2數據清洗常用工具
1.5本章小結
1.6實訓
習題1
第2章檔案格式
2.1檔案格式概述
2.2Kettle中檔案格式的轉換
2.2.1文本檔案轉換
2.2.2CSV檔案轉換
2.2.3XML檔案轉換
2.2.4JSON檔案轉換
2.2.5Excel檔案轉換
2.2.6生成記錄轉換
2.3本章小結
2.4實訓
習題2
第3章Web數據抽取
3.1Web數據抽取基礎
3.2Web數據抽取的實現
3.2.1Kettle數據抽取原理
3.2.2Kettle數據抽取實現
3.3本章小結
3.4實訓
習題3
第4章網路爬蟲
4.1網路爬蟲基礎
4.2Python3網路爬蟲實現
4.2.1urllib模組
4.2.2Requests庫
4.2.3BeautifulSoup庫
4.3Python3網路爬蟲實例
4.3.1urllib實例
4.3.2requests實例
4.4本章小結
4.5實訓
習題4
第5章Kettle數據清洗
5.1Kettle數據清洗概述
5.2Kettle數據清洗實現
5.2.1清洗簡單數據
5.2.2清洗複雜數據
5.3本章小結
5.4實訓
習題5
第6章數據遷移
6.1數據遷移概述
6.2數據遷移實現技術
6.2.1基於主機的遷移方式
6.2.2備份恢復的遷移方式
6.2.3基於存儲的遷移方式
6.2.4基於檔案系統的遷移方式
6.2.5基於資料庫的遷移方式
6.3數據遷移實現
6.3.1資料庫安裝與使用
6.3.2Kettle數據遷移
6.4本章小結
6.5實訓
習題6
第7章文本數據處理
7.1文本分詞
7.2文本數據處理方法
7.3jieba分詞的套用
7.3.1jieba概述
7.3.2jieba套用實例
7.4本章小結
7.5實訓
習題7
第8章Python數據清洗
8.1Python數據清洗概述
8.1.1Python數據清洗相關庫
8.1.2Python數據清洗庫的安裝
8.2NumPy使用
8.2.1數組的創建與使用
8.2.2計算模組與隨機模組的使用
8.2.3NumPy數據清洗實例
8.3Pandas使用
8.3.1Pandas數據類型概述
8.3.2Pandas數據類型套用
8.3.3Pandas數據清洗
8.4matplotlib使用
8.4.1matplotlib的介紹
8.4.2matplotlib的套用
8.5Python數據清洗實例
8.5.1清洗內部數據
8.5.2清洗外部數據
8.6本章小結
8.7實訓
習題8
第9章DataCleaner數據分析與清洗
9.1DataCleaner簡介
9.1.1DataCleaner概述
9.1.2DataCleaner界面認識
9.2DataCleaner套用
9.2.1認識DataCleaner
9.2.2DataCleaner數據分析實例
9.3本章小結
9.4實訓
習題9
第10章數據清洗綜合實訓
10.1Python數據分組與顯示
10.2Python數據清洗與顯示
10.3Kettle分組排序
10.4Kettle模糊匹配
參考文獻

相關詞條

熱門詞條

聯絡我們