大數據分析與挖掘(人民郵電出版社出版的書籍)

內容簡介

《大數據分析與挖掘》主要內容包括：第 1章緒論、第 2章數據特徵分析與預處理、第3章關聯規則挖掘、第4章分類算法、第5章聚類算法、第6章分散式大數據流挖掘、第7章綜合案例——基於華為技術與設備。本書可作為高等院校數據科學與大數據技術、計算機科學與技術等相關專業的本科生教材。

圖書目錄

第1章　緒論　1

1．1　大數據分析與挖掘簡介　1

1．2　大數據套用及挑戰　2

1．3　大數據分析與挖掘主要技術　3

1．4　大數據分析與挖掘工具　4

1．4．1　Sklearn　4

1．4．2　Spark ML　5

1．4．3　華為雲的機器學習服務　5

第2章　數據特徵分析與預處理　15

2．1　數據類型　15

2．1．1　數據集類型　15

2．1．2　數據屬性的類型　17

2．2　數據的描述性特徵　20

2．2．1　描述數據集中趨勢的度量　20

2．2．2　描述數據離中趨勢的度量　22

2．2．3　數據分布形態的度量　24

2．2．4　數據分布特徵的可視化　27

2．3　數據的相關分析　30

2．3．1　相關分析　31

2．3．2　卡方（χ2）檢驗　32

2．4　數據預處理　34

2．4．1　數據變換、離散化與編碼　35

2．4．2　數據抽樣技術　40

2．4．3　主成分分析　42

2．4．4　數據清洗　49

2．5　Spark數據預處理功能簡介　52

2．5．1　二值化　52

2．5．2　分箱器　52

2．5．3　哈達瑪積變換　53

2．5．4　最大絕對值標準化　53

2．5．5　最小—最大變換　54

2．5．6　正則化　54

2．5．7　多項式擴展　55

2．5．8　標準化　55

2．5．9　特徵向量合併　56

2．5．10　類別特徵索引　57

習題　57

第3章　關聯規則挖掘　59

3．1　基本概念　59

3．2　基於候選項產生—測試策略的頻繁模式挖掘算法　61

3．2．1　Apriori算法　61

3．2．2　基於劃分的算法　64

3．2．3　事務數據的存儲　65

3．3　不需要產生候選項集的頻繁模式挖掘算法　66

3．3．1　FP-Growth算法　66

3．3．2　Spark上FP-Growth算法實踐　71

3．4　結合相關性分析的關聯規則　72

3．5　多層關聯規則挖掘算法　74

3．6　序列模式挖掘　77

3．6．1　序列模式的定義　77

3．6．2　PrefixSpan算法　78

3．6．3　與其他序列模式挖掘算法的比較和分析　80

大數據分析與挖掘(人民郵電出版社出版的書籍)

基本介紹

內容簡介

圖書目錄

作者簡介

相關詞條

熱門詞條