數據倉庫與數據挖掘(Python+Hadoop+Hive)（微課視頻版）

內容簡介

本書主要介紹數據倉庫與數據挖掘的基本概念和方法，包括數據預處理、數據倉庫與在線上分析處理、數據倉庫設計與開發、回歸分析、關聯規則挖掘、分類、聚類、神經網路與深度學習、離群點檢測以及文本和時序數據挖掘等內容。各章力求原理敘述清晰，易於理解，突出理論聯繫實際，輔以代碼實踐與指導，引領讀者更好地理解與套用算法，快速邁進數據倉庫與數據挖掘領域。本書可作為高等學校計算機科學與技術、數據科學與大數據技術等相關專業的教材，也可作為科研人員、工程師和大數據愛好者的參考書。

圖書目錄

第1章緒論

1．1數據倉庫概述

1．1．1數據倉庫的定義及特點

1．1．2數據倉庫與操作型資料庫的關係

1．1．3數據倉庫的組成

1．1．4數據倉庫的套用

1．1．5基於Hadoop/Spark的數據倉庫技術

1．2數據挖掘概述

1．2．1數據挖掘的概念

1．2．2數據挖掘的主要任務

1．2．3數據挖掘的數據源

1．2．4數據挖掘使用的技術

1．2．5數據挖掘存在的主要問題

1．2．6數據挖掘建模的常用工具

1．2．7Python數據挖掘常用庫

1．3數據倉庫與數據挖掘的區別與聯繫

1．3．1數據倉庫與數據挖掘的區別

1．3．2數據倉庫與數據挖掘的聯繫

1．4小結

習題1

第2章認識數據

2.1屬性及其類型

2.1.1屬性

2.1.2屬性類型

2.2數據的基本統計描述

2.2.1中心趨勢度量

2.2.2數據散布度量

2.3數據可視化

2.3.1基於像素的可視化技術

2.3.2幾何投影可視化技術

2.3.3基於圖符的可視化技術

2.3.4層次可視化技術

2.3.5可視化複雜對象和關係

2.3.6高維數據可視化

2.3.7Python數據可視化

2.4數據對象的相似性度量

2.4.1數據矩陣和相異性矩陣

2.4.2標稱屬性的相似性度量

2.4.3二元屬性的相似性度量

2.4.4數值屬性的相似性度量

2.4.5序數屬性的相似性度量

2.4.6混合類型屬性的相似性

2.4.7餘弦相似性

2.4.8距離度量的Python實現

2.5小結

習題2

第3章數據預處理

3.1數據預處理的必要性

3.1.1原始數據中存在的問題

3.1.2數據質量要求

3.2數據清洗

3.2.1數據清洗方法

3.2.2利用Pandas進行數據清洗

數據倉庫與數據挖掘(Python+Hadoop+Hive)（微課視頻版）

基本介紹

內容簡介

圖書目錄

熱門詞條