數據挖掘導論(2015年清華大學出版社出版的圖書)

數據挖掘導論(2015年清華大學出版社出版的圖書)

本詞條是多義詞,共3個義項
更多義項 ▼ 收起列表 ▲

《數據挖掘導論》是2015年清華大學出版社出版的圖書。本書為數據挖掘入門級教材,共分8章,主要內容分為三個專題:技術、數據和評估。

基本介紹

  • 中文名:數據挖掘導論
  • 作者:戴紅、常子冠、於寧
  • 出版社:清華大學出版社
  • ISBN:9787302381044
內容簡介,圖書目錄,

內容簡介

本書為數據挖掘入門級教材,共分8章,主要內容分為三個專題:技術、數據和評估。技術專題包括決策樹技術、K-means算法、關聯分析技術、神經網路技術、回歸分析技術、貝葉斯分析、凝聚聚類、概念分層聚類、混合模型聚類技術的EM算法、時間序列分析和基於Web的數據挖掘等常用的機器學習方法和統計技術。數據專題包括資料庫中的知識發現處理模型和數據倉庫及OLAP技術。評估專題包括利用檢驗集分類正確率和混淆矩陣,並結合檢驗集置信區間評估有指導學習模型,使用無指導聚類技術評估有指導模型,利用Lift和假設檢驗比較兩個有指導學習模型,使用MS Excel 2010和經典的假設檢驗模型評估屬性,使用簇質量度量方法和有指導學習技術評估無指導聚類模型。本書秉承教材風格,強調廣度講解。注重成熟模型和開源工具的使用,以提高學習者的套用能力為目標;注重結合實例和實驗,加強基本概念和原理的理解和運用;注重實例的趣味性和生活性,提高學習者學習的積極性。使用章後練習、計算和實驗作業鞏固和檢驗所學內容;使用辭彙表附錄,解釋和規範數據挖掘學科專業術語;使用適合教學的簡單易用開源的Weka和通用的MS Excel軟體工具實施數據挖掘驗證和體驗數據挖掘的精妙。本書可作為普通高等院校計算機科學、信息科學、數學和統計學專業的入門教材,也可作為如經濟學、管理學、檔案學等對數據管理、數據分析與數據挖掘有教學需求的其他相關專業的基礎教材。同時,對數據挖掘技術和方法感興趣,致力於相關方面的研究和套用的其他讀者,也可以從本書中獲取基本的指導和體驗。本書配有教學幻燈片、大部分章後習題和實驗的參考答案以及課程大綱。

圖書目錄

第1章 認識數據挖掘 1
1.1 數據挖掘的定義 1
1.2 機器學習 2
1.2.1 概念學習 2
1.2.2 歸納學習 3
1.2.3 有指導的學習 4
1.2.4 無指導的聚類 7
1.3 數據查詢 8
1.4 專家系統 8
1.5 數據挖掘的過程 9
1.5.1 準備數據 10
1.5.2 挖掘數據 10
1.5.3 解釋和評估數據 10
1.5.4 模型套用 11
1.6 數據挖掘的作用 11
1.6.1 分類 11
1.6.2 估計 12
1.6.3 預測 12
1.6.4 無指導聚類 12
1.6.5 關聯關係分析 13
1.7 數據挖掘技術 13
1.7.1 神經網路 14
1.7.2 回歸分析 14
1.7.3 關聯分析 15
1.7.4 聚類技術 16
1.8 數據挖掘的套用 16
1.8.1 套用領域 16
1.8.2 成功案例 18
1.9 Weka數據挖掘軟體 19
1.9.1 Weka簡介 19
1.9.2 使用Weka建立決策樹模型 22
1.9.3 使用Weka進行聚類 25
1.9.4 使用Weka進行關聯分析 26
本章小結 27
習題 28
第2章 基本數據挖掘技術 30
2.1 決策樹 30
2.1.1 決策樹算法的一般過程 31
2.1.2 決策樹算法的關鍵技術 32
2.1.3 決策樹規則 40
2.1.4 其他決策樹算法 41
2.1.5 決策樹小結 41
2.2 關聯規則 42
2.2.1 關聯規則概述 42
2.2.2 關聯分析 43
2.2.3 關聯規則小結 46
2.3 聚類分析技術 47
2.3.1 K—means算法 48
2.3.2 K—means算法小結 51
2.4 數據挖掘技術的選擇 51
本章小結 52
習題 53
第3章 資料庫中的知識發現 55
3.1 知識發現的基本過程 55
3.1.1 KDD過程模型 55
3.1.2 知識發現軟體 57
3.1.3 KDD過程的參與者 58
3.2 KDD過程模型的套用 58
3.2.1 步驟1:商業理解 58
3.2.2 步驟2:數據理解 59
3.2.3 步驟3:數據準備 60
3.2.4 步驟4:建模 65
3.2.5 評估 66
3.2.6 部署和採取行動 66
3.3 實驗:KDD案例 66
本章小結 72
習題 73
第4章 數據倉庫 74
4.1 資料庫與數據倉庫 74
4.1.1 數據(庫)模型 75
4.1.2 規範化與反向規範化 77
4.2 設計數據倉庫 79
4.2.1 數據抽取、清洗、變換和載入 79
4.2.2 數據倉庫模型 82
4.2.3 數據集市 85
4.2.4 決策支持系統 86
4.3 在線上分析處理 87
4.3.1 概述 87
4.3.2 實驗:使用OLAP輔助駕駛員行為分析 90
4.4 使用Excel數據透視表和數據透視圖分析數據 93
4.4.1 創建簡單數據透視表和透視圖 93
4.4.2 創建多維透視表和透視圖 97
本章小結 100
習題 100
第5章 評估技術 102
5.1 數據挖掘評估概述 102
5.1.1 評估內容 102
5.1.2 評估工具 103
5.2 評估有指導學習模型 108
5.2.1 評估分類類型輸出模型 108
5.2.2 評估數值型輸出模型 109
5.2.3 計算檢驗集置信區間 111
5.2.4 無指導聚類技術的評估作用 112
5.3 比較有指導學習模型 112
5.3.1 使用Lift比較模型 112
5.3.2 通過假設檢驗比較模型 114
5.4 屬性評估 115
5.4.1 數值型屬性的冗餘檢查 115
5.4.2 數值屬性顯著性的假設檢驗 117
5.5 評估無指導聚類模型 118
本章小結 118
習題 119
第6章 神經網路技術 120
6.1 神經網路概述 120
6.1.1 神經網路模型 120
6.1.2 神經網路的輸入和輸出數據格式 121
6.1.3 激勵函式 123
6.2 神經網路訓練 124
6.2.1 反向傳播學習 124
6.2.2 自組織映射的無指導聚類 127
6.2.3 實驗:套用BP算法建立前饋神經網路 130
6.3 神經網路模型的優勢和缺點 138
本章小結 138
習題 139
第7章 統計技術 141
7.1 回歸分析 141
7.1.1 線性回歸分析 142
7.1.2 非線性回歸 149
7.1.3 樹回歸 151
7.2 貝葉斯分析 152
7.3 聚類技術 156
7.3.1 分層聚類 156
7.3.2 基於模型的聚類 163
7.4 數據挖掘中的統計技術與機器學習技術 165
本章小結 165
習題 167
第8章 時間序列和基於Web的數據挖掘 169
8.1 時間序列分析 169
8.1.1 概述 169
8.1.2 線性回歸分析解決時間序列問題 173
8.1.3 神經網路技術解決時間序列問題 175
8.2 基於Web的數據挖掘 176
8.2.1 概述 176
8.2.2 Web文本挖掘 178
8.2.3 Web使用挖掘 179
8.3 多模型分類技術 185
8.3.1 裝袋技術 185
8.3.2 推進技術 185
本章小結 186
習題 187
附錄A 辭彙表 188
附錄B 數據挖掘數據集 201
參考文獻 208

相關詞條

熱門詞條

聯絡我們