數據清洗(2020年機械工業出版社出版的圖書)

數據清洗(2020年機械工業出版社出版的圖書)

本詞條是多義詞,共5個義項
更多義項 ▼ 收起列表 ▲

《數據清洗》是2020年機械工業出版社出版的圖書,作者是黃源、塗旭東、羅少甫。本書講述了,數據清洗基礎、數據清洗方法、檔案類型、數據採集與抽取、Excel數據清洗與轉換、ETL數據清洗與轉換、Python數據清洗、R語言數據清洗。

基本介紹

  • 中文名:數據清洗
  • 作者:黃源、塗旭東、羅少甫
  • 出版社:機械工業出版社
  • ISBN:9787111657156
內容簡介,圖書目錄,作者簡介,

內容簡介

《數據清洗》將理論與實踐操作相結合,通過大量的案例幫助讀者快速了解和套用大數據清洗的相關技術。針對書中重要的、核心的知識點,提供了較多的練習,幫助讀者達到熟練套用的目的。《數據清洗》可作為高職高專院校大數據技術與套用、軟體技術、信息管理、計算機網路等專業的專業課教材,也可作為大數據愛好者的參考書。

圖書目錄

目 錄
前言
第1章 數據清洗基礎
1.1 數據清洗概述
1.1.1 數據清洗的定義
1.1.2 數據清洗的對象
1.1.3 數據清洗的原理
1.1.4 數據清洗的評估
1.1.5 數據清洗的框架模型
1.1.6 數據清洗研究與套用展望
1.1.7 數據清洗的行業發展
1.2 數據標準化
1.2.1 數據標準化簡介
1.2.2 數據標準化方法
1.2.3 數據標準化的實例
1.3 數據清洗的常用工具
1.4 實訓1 安裝和運行Kettle
1.5 實訓2 安裝和運行OpenRefine
1.6 實訓3 安裝和運行Python 3
1.7 小結
習題1
第2章 數據清洗方法
2.1 數據質量
2.1.1 數據質量的定義
2.1.2 數據質量中的常見術語
2.2 數據預處理
2.2.1 數據預處理簡介
2.2.2 數據預處理方法
2.3 數據清洗方法
2.3.1 數據缺失值的處理方法
2.3.2 噪聲數據的處理方法
2.3.3 冗餘數據的處理方法
2.3.4 數據格式與內容的處理方法
2.4 數據清洗中的統計學基礎
2.5 實訓1 找出離群點
2.6 實訓2 找出統計對象
2.7 實訓3 找出數據清洗的步驟
2.8 實訓4 找出異常數據
2.9 小結
習題2
第3章 檔案類型
3.1 檔案格式
3.1.1 檔案格式概述
3.1.2 Windows中常見的檔案格式
3.2 數據類型與字元編碼
3.2.1 數據類型概述
3.2.2 字元編碼
3.2.3 用Python讀取檔案
3.2.4 數據轉換
3.3 數據轉換的實現
3.3.1 用Python生成與讀取CSV檔案
3.3.2 用Python讀取與轉換JSON檔案
3.4 實訓1 將XML檔案轉換為JSON檔案
3.5 實訓2 將JSON檔案轉換為CSV檔案
3.6 小結
習題3
第4章 數據採集與抽取
4.1 數據採集概述
4.1.1 了解數據採集
4.1.2 日誌數據採集與處理的常見方法
4.1.3 數據採集平台
4.1.4 數據採集工具
4.2 網頁數據採集與實現
4.2.1 網路爬蟲概述
4.2.2 網頁數據採集的實現
4.3 數據抽取
4.3.1 數據抽取概述
4.3.2 文本數據抽取
4.3.3 網頁數據抽取
4.4 實訓1 使用Kettle抽取本地XML檔案
4.5 實訓2 使用Kettle抽取CSV數據並輸出為文本檔案
4.6 小結
習題4
第5章 Excel數據清洗與轉換
5.1 Excel數據清洗概述
5.1.1 Excel簡介
5.1.2 Excel數據清洗與轉換方法
5.2 Excel數據清洗與轉換的實現
5.2.1 常用數據分析函式介紹
5.2.2 刪除重複行
5.2.3 文本查找和替換
5.2.4 數據替換
5.2.5 字元串截取
5.2.6 字母大小寫轉換
5.2.7 刪除空格和非列印字元
5.2.8 數字和數字元號的轉換
5.2.9 日期和時間處理
5.2.10 合併和拆分列
5.2.11 數據的轉置
5.2.12 數據查詢和引用
5.3 實訓1 清洗簡單數據
5.4 實訓2 清洗複雜數據
5.5 小結
習題5
第6章 ETL數據清洗與轉換
6.1 數據倉庫與ETL
6.1.1 數據倉庫
6.1.2 ETL概述
6.2 Kettle數據清洗與轉換基礎
6.2.1 Kettle數據清洗
6.2.2 Kettle數據轉換
6.3 Kettle數據倉庫高級套用
6.4 實訓1 在Kettle中識別流的後一行並寫入日誌
6.5 實訓2 在Kettle中用正則表達式清洗數據
6.6 實訓3 使用Kettle過濾數據表
6.7 實訓4 使用Kettle生成隨機數並相加
6.8 小結
習題6
第7章 Python數據清洗
7.1 Python數據清洗基礎
7.1.1 Python語言基礎
7.1.2 Python數據清洗所用庫
7.2 數據讀寫、選擇、整理和描述
7.2.1 從CSV檔案讀取數據
7.2.2 寫入數據到CSV檔案
7.2.3 數據整理和描述
7.3 數據分組、分割、合併和變形
7.3.1 數據分組
7.3.2 數據分割
7.3.3 數據合併
7.3.4 數據變形
7.4 缺失值、異常值和重複值處理
7.4.1 缺失值處理
7.4.2 異常值檢測和過濾
7.4.3 移除重複數據
7.5 時間序列處理
7.5.1 Python的日期與時間工具
7.5.2 Pandas時間序列數據結構
7.6 字元串處理
7.6.1 Python字元串方法列表
7.6.2 Python正則表達式
7.6.3 Pandas的字元串方法
7.7 實訓1 清洗企業員工信息
7.8 實訓2 清洗在校生飲酒消費數據
7.9 小結
習題7
第8章 R語言數據清洗
8.1 R語言簡介
8.2 R語言基礎
8.2.1 R語言運算符號
8.2.2 R語言數據類型
8.3 R語言data.table數據包
8.3.1 data.table數據包介紹
8.3.2 創建data.table對象

作者簡介

黃源,重慶航天職業技術學院副教授,參加工作以來,一直從事計算機課程的教學與科研,公開發表科研,教改論文多篇,並於2013年獲得副教授職稱。積極參加學校的精品課程建設與微課改革,出版專著3部,以前參編的北大出版社《網頁設計教程與實訓》曾獲教材一等獎。

相關詞條

熱門詞條

聯絡我們