數據挖掘:方法與套用

數據挖掘:方法與套用

《數據挖掘:方法與套用》是2014年10月清華大學出版社出版的圖書,作者是徐華。

基本介紹

  • 中文名:數據挖掘:方法與套用
  • 作者:徐華
  • 出版社:清華大學出版社
  • 出版時間:2014年10月
  • 定價:25 元
  • ISBN:9787302369011
內容簡介,圖書目錄,

內容簡介

本書主要根據作者近幾年在清華大學面向研究生和本科生開設的“數據挖掘:方法與套用”課程的教學實踐與積累,參考近幾年國外著名大學相關課程的教學體系,系統的介紹數據挖掘的基本概念和基本原理方法;結合一些典型的套用實例展示用數據挖掘的思維方法求解問題的一般性模式與思路。
本書可作為有一定數據結構、資料庫和程式設計基礎的研究生或本科生開展數據挖掘知識學習和研究的入門性教材與參考讀物。

圖書目錄

第1章緒論1
1.1套用背景1
1.1.1商業上的驅動2
1.1.2科學研究上的驅動2
1.1.3數據挖掘伴隨著資料庫技術而出現2
1.2什麼是數據挖掘3
1.2.1基本描述3
1.2.2關於知識發現4
1.3數據挖掘的主要技術5
1.4數據挖掘的主要研究內容7
1.5數據挖掘面臨的主要問題10
1.6數據挖掘相關的資料11
1.7本書的總體章節安排12
1.8小結13
參考文獻13
第2章數據預處理14
2.1前言14
2.2數據預處理的基本概念14
2.2.1數據的基本概念14
2.2.2為什麼要進行數據預處理17
2.2.3數據預處理的任務18
2.3數據的描述18
2.3.1描述數據的中心趨勢19
2.3.2描述數據的分散程度21
2.3.3描述數據的其他方式22
2.4數據清洗24
2.4.1數據缺失的處理24
2.4.2數據清洗25
2.5數據集成和轉換27
2.5.1數據集成27
2.5.2數據冗餘性27
2.5.3數據轉換29
2.6數據歸約和變換30
2.6.1數據歸約30
2.6.2數據離散化33
2.6.3概念層次生成34
2.7小結35
參考文獻36
第3章數據倉庫37
3.1前言37
3.2資料庫基本概念回顧37
3.2.1資料庫簡介38
3.2.2表、記錄和域38
3.2.3資料庫管理系統38
3.3數據倉庫簡介39
3.3.1數據倉庫特點39
3.3.2數據倉庫概念40
3.3.3數據倉庫作用41
3.3.4數據倉庫與DBMS對比41
3.3.5分離數據倉庫的原因42
3.4多維數據模型43
3.4.2概念模型45
3.4.3概念分層48
3.4.4典型OLAP操作49
3.4.5星型網路的查詢模型51
3.5數據倉庫結構52
3.5.1數據倉庫設計52
3.5.2多層體系結構54
3.6數據倉庫的功能55
3.6.1數據立方體的有效計算55
3.6.2索引OLAP數據60
3.6.3OLAP查詢的有效處理61
3.7從數據倉庫到數據挖掘61
3.7.1數據倉庫套用61
3.7.2從OLAP到OLAM62
3.8小結64
參考文獻64
第4章相關性與關聯規則66
4.1基本概念66
4.1.1潛在的套用66
4.1.2購物籃問題67
4.1.3頻繁模式分析、閉項集和關聯規則67
4.2頻繁項集挖掘方法69
4.2.1Apriori算法69
4.2.2由頻繁項集產生關聯規則71
4.2.3提高Apriori的效率72
4.2.4挖掘頻繁項集的模式增長方法73
4.3多種關聯規則挖掘75
4.3.1挖掘多層關聯規則75
4.3.2挖掘多維關聯規則77
4.3.3挖掘量化關聯規則78
4.4從關聯分析到相關分析79
4.4.1相關分析80
4.4.2強規則不一定是有價值的80
4.4.3挖掘高度關聯的模式81
4.5基於約束的頻繁模式挖掘82
4.5.1關聯規則的元規則制導挖掘82
4.5.2基於約束的模式生成: 模式空間剪枝和數據空間剪枝83
4.6小結85
參考文獻85
第5章分類和預測89
5.1前言89
5.2基本概念89
5.2.1什麼是分類89
5.2.2什麼是預測91
5.3關於分類和預測的問題91
5.3.1準備分類和預測的數據91
5.3.2評價分類和預測方法91
5.4決策樹分類92
5.4.1決策樹歸納93
5.4.2屬性選擇度量93
5.4.3提取分類規則96
5.4.4基本決策樹歸納的增強97
5.4.5在大數據集中的分類97
5.5.2樸素貝葉斯分類98
5.5.3貝葉斯信念網路100
5.5.4貝葉斯網路學習101
5.6神經網路102
5.6.1神經網路簡介103
5.6.2多層神經網路103
5.6.3神經網路訓練104
5.6.4後向傳播104
5.6.5網路剪枝和規則抽取106
5.7.1數據線性可分的情況107
5.7.2數據線性不可分的情況109
5.7.3支持向量機和神經網路的對比111
5.8關聯分類111
5.8.1為什麼有效111
5.8.2常見關聯分類算法112
5.9分類準確率112
5.9.1估計錯誤率113
5.9.2裝袋和提升113
5.10小結115
參考文獻115
第6章聚類分析117
6.1聚類分析的定義和數據類型117
6.1.1聚類的定義117
6.1.2聚類分析和主要套用118
6.1.3聚類分析方法的性能指標119
6.1.4聚類分析使用的數據類型119
6.2流聚類方法分類與相似性質量121
6.2.1聚類分析方法分類121
6.2.2連續變數的距離與相似性度量122
6.2.3二元變數與標稱變數的相似性度量124
6.2.4序數和比例標度變數的相似性度量125
6.2.5混合類型變數的相似性度量125
6.3基於分割的聚類126
6.4基於層次的聚類129
6.5基於密度的聚類133
6.6基於格線的聚類134
6.7基於模型的聚類135
6.8離群點檢測136
6.9小結137
參考文獻137
第7章數據挖掘套用139
7.1前言139
7.2套用研發思路140
7.3預處理方法140
7.3.1基礎數據說明140
7.3.2數位化方法說明140
7.3.3深入一步的預處理方法142
7.3.4基本數據分布情況說明144
7.3.5初步分析結果145
7.3.6小結148
7.4特徵提取方法148
7.4.18種特徵提取方法148
7.4.2特徵總體排名策略149
7.4.3最終關鍵特徵150
7.4.4特徵提取與分析結論154
7.4.5小結155
7.5皮膚特徵預測模型155
7.5.1預測方法回顧156
7.5.2預測結果分析與結論157
7.5.3小結168
7.6小結169
參考文獻170
附錄171
附錄A插圖索引171
附錄B表格索引173
附錄C算法索引174
附錄D關鍵字索引174

相關詞條

熱門詞條

聯絡我們