《實戰大數據——MATLAB數據挖掘詳解與實踐》是2017年8月1日清華大學出版社出版的圖書,作者是許國根、賈瑛。
基本介紹
- 書名:實戰大數據——MATLAB數據挖掘詳解與實踐
- 作者:許國根,賈瑛
- 出版社:清華大學出版社
- 出版時間:2017年08月01日
- 定價:89 元
- ISBN:9787302451013
- 印次:1-1
- 印刷日期:2017.07.11
內容簡介,圖書目錄,
內容簡介
大數據時代,我們需要對各種海量數據進行篩選、清洗、挖掘,在這個過程中,獲取有效數據的方式方法和模型算法成為了整個數據挖掘過程的重點,MATLAB作為一個數據挖掘工具,如何正確和準確地使用它成為了重中之重。
針對實際套用數據挖掘技術的要求,本書既介紹了數據挖掘的基礎理論和技術,又較為詳細地介紹了各種算法以及MATLAB程式。本書共分4篇,分別介紹了數據挖掘的基本概念、技術與算法以及套用實例。期望通過大量的實例分析幫助廣芝歡厚祝大讀者掌握數據挖掘技術,並套用於實際的研究中,提高對海量數據信息的處理及挖掘能力。本書針對性和實用性強,具有較高的理論和實用價值。
本書作者就職於部隊高校,專攻數據挖掘,並套用於大量實際項目,本書同時得到了國內著名數據挖掘公司的技術支持,很多案例來自實際項目。
本書可作為高等院校計算機工程、信息工程、生物醫學工程、化學、環境、經濟、管理等學科的研究生、本科生的教材或教學參考書,亦可作為企事業單位管理者、信息分析人員、市場行銷人員和研究與開發人員的參考資料。
圖書目錄
第1章緒論 1
1.1數據挖掘概述 2
1.2數據挖掘的分類 4
1.3數據挖掘的過程 5
1.4數據挖掘的任務 6
1.5數據挖掘的對象 8
1.5.1數據譽永龍嚷庫 8
1.5.2文本 10
1.5.3圖像與視頻數據 10
1.5.4Web數據 11
1.6數據挖掘建模方法 11
1.6.1業務理解 12
1.6.2數據理解 13
1.6.3數據準備 13
1.6.4建模 14
1.6.5評估 15
1.6.6部署 16
1.7數據挖掘的套用 16
1.7.1在金微戀設融領域的套用 16
1.7.2在零售業中的套用 17
1.7.3在電信業的套用 18
1.7.4在管理中的套用 19
1.7.5在化學研究領域中的套用 19
1.7.6在材料研究、生產方面的套用 20
1.7.7在機械故障診斷與監測中的套用 21
1.7.8在醫療領域中的套用 22
第2章數據挖掘算法 25
2.1決策樹算法 26
2.1.1決策樹基本算法 27
2.1.2ID3算法 29
2.1.3C4.5算法 30
2.1.4CART算法 31
2.1.5決策樹的評價標準 32
2.1.6決策樹的剪枝及最佳化 33
2.1.7基於matlab的決策樹分析 34
2.2人工神經網路算法格恥 41
2.2.1人工神經網路概述 41
2.2.2人工神經網路的基本模型 41
2.2.3BP神經網路 43
2.2.4RBF神經網路 45
2.2.5SOM神經網路 46
2.2.6反饋型神經網路(Hopfield) 47
2.2.7基於matlab的神經網路方法 49
2.3進化算法 55
2.3.1進化算法的基本原理 56
2.3.2基因算法的主要步驟 60
2.3.3基本遺傳算法 61
2.3.4進化規划算法 63
2.3.5進化策略計算 64
2.3.6量子遺傳算法 68
2.3.7人工免疫算法 72
2.3.8基於matlab的進化算法 80
2.4統計分析方法 87
2.4.1假設檢驗 87
2.4.2回歸分析 91
2.4.3二項邏輯(logistic)回歸 100
2.4.4方差分析 104
2.4.5主成分分析 107
2.4.6因子分析 110
2.4.7基於matlab的統計分析方法 113
2.5貝葉斯網路方法 141
2.5.1貝葉斯定理、先驗和後驗 142
2.5.2貝葉斯網路 142
2.5.3貝葉斯網路學習 143
2.5.4主要貝葉斯網路模型 145
2.5.5基於matlab的貝葉斯網路方法 148
2.6支持向量機 160
2.6.1支持向量機概述 160
2.6.2核函式 162
2.6.3基於matlab的支持向量機方法 164
2.7關聯分析 167
2.7.1概述 167
2.7.2Apriori關聯規則算法 170
2.7.3基於分類搜尋的關聯規則算法 171
2.7.4時序關聯規則算法 173
2.7.5多值屬性關聯規則算法 174
2.7.6增量關聯規則算法 175
2.7.7基於關聯規則的分類算法 176
2.7.8模糊關聯分類算法 177
2.7.9關聯規則的評價 178
2.7.10辛普敬只悼森悖論 179
2.7.11基於matlab的關聯規則分析 180
2.8其他數據挖掘訂愉說方法 182
2.8.1近鄰法 182
2.8.2K-means聚類 184
2.8.3基於matlab的民淚主近鄰法及k-means聚類法 187
第3章數據挖掘相關技術 191
3.1數據倉庫 192
3.1.1概述 192
3.1.2數據倉庫設計 195
3.1.3數據倉庫的開發套用 199
3.1.4數據倉庫的技術管理 209
3.1.5OLAP技術 210
3.1.6基於matlab的數據倉庫開發技術 214
3.2模糊集理論 234
3.1.1模糊集合 234
3.1.2模糊關係 237
3.1.3模糊聚類 239
3.3.5基於matlab的模糊集處理技術 244
3.3粗糙集技術 255
3.3.1粗糙集理論的基本概念 256
3.3.2分類規則的形成 259
3.3.3知識的約簡 259
3.3.4模糊集與粗糙集 261
3.3.5基於matlab的粗糙集處理方法 262
3.4目標最佳化技術 265
3.4.1極值問題 266
3.4.2無約束非線性規劃 267
3.4.3有約束非線性規劃 270
3.4.4大規模最佳化問題的分解算法 270
3.4.5其他最佳化方法 273
3.4.6基於matlab的目標最佳化方法 274
3.5可視化技術 281
3.5.1可視化技術分類 282
3.5.2多維數據可視化 283
3.5.3圖形的特徵分析 294
3.5.4基於多元圖的圖形分類方法 297
3.5.5基於色度學空間的多元圖表示 299
3.5.6基於matlab的數據可視化技術 300
3.6公式發現 314
3.6.1概述 315
3.6.2公式發現系統中的知識 315
3.6.3基於matlab的公式發現 319
3.7多媒體數據挖掘技術 320
3.7.1文本挖掘 323
3.7.2圖像挖掘 331
3.7.3視頻挖掘 331
3.7.4音頻挖掘 332
3.7.5複合類型數據的挖掘 333
3.8Web數據挖掘技術 334
3.8.1Web內容挖掘 335
3.8.2Web結構挖掘 337
3.8.3Web使用挖掘 338
第4章數據挖掘套用實戰 343
4.1數據關係發現 344
4.2數據統計特性 344
4.3數據預處理 349
4.3.1數據清理 349
4.3.2數據集成與轉換 351
4.3.3數據歸約與濃縮 353
4.3.4數值數據的概念分層與離散化 360
4.3.5例題 362
4.4分類 373
4.5例題 376
4.6預測 381
4.6.1回歸分析 381
4.6.2時間序列預測模型 385
4.6.3馬爾可夫鏈 389
4.6.4灰色系統方法 390
4.6.5例題 398
4.7聚類 418
4.7.1聚類分析概述 418
4.7.2聚類分析中的數據類型 419
4.7.3相似性度量 422
4.7.4聚類的特徵 427
4.7.5聚類準則 427
4.7.6劃分方法 429
4.7.7層次方法 430
4.7.8基於密度的方法 433
4.7.9基於格線的方法 434
4.7.10基於模型的聚類方法 435
4.4.11基於目標函式的方法 436
4.7.12離群點檢測 438
4.7.13聚類有效性 445
4.7.14例題 448
4.8時序數據挖掘 462
4.8.1基本定義 463
4.8.2時序數據挖掘參數 464
4.8.3時序關聯規則 464
4.8.4時間序列挖掘 466
4.8.5時間序列分段線性表示 468
4.8.6時間序列的預測 469
4.8.7例題 469
4.9關聯規則挖掘 481
4.9.1關聯規則的類型及挖掘算法 481
4.9.2基於組織進化的關聯規則挖掘 481
4.9.3基於組織層次進化的關聯規則挖掘 483
4.9.4多維關聯規則挖掘 484
4.9.5關聯規則擴展 485
4.9.6例題 487
參考文獻 500
2.2.3BP神經網路 43
2.2.4RBF神經網路 45
2.2.5SOM神經網路 46
2.2.6反饋型神經網路(Hopfield) 47
2.2.7基於matlab的神經網路方法 49
2.3進化算法 55
2.3.1進化算法的基本原理 56
2.3.2基因算法的主要步驟 60
2.3.3基本遺傳算法 61
2.3.4進化規划算法 63
2.3.5進化策略計算 64
2.3.6量子遺傳算法 68
2.3.7人工免疫算法 72
2.3.8基於matlab的進化算法 80
2.4統計分析方法 87
2.4.1假設檢驗 87
2.4.2回歸分析 91
2.4.3二項邏輯(logistic)回歸 100
2.4.4方差分析 104
2.4.5主成分分析 107
2.4.6因子分析 110
2.4.7基於matlab的統計分析方法 113
2.5貝葉斯網路方法 141
2.5.1貝葉斯定理、先驗和後驗 142
2.5.2貝葉斯網路 142
2.5.3貝葉斯網路學習 143
2.5.4主要貝葉斯網路模型 145
2.5.5基於matlab的貝葉斯網路方法 148
2.6支持向量機 160
2.6.1支持向量機概述 160
2.6.2核函式 162
2.6.3基於matlab的支持向量機方法 164
2.7關聯分析 167
2.7.1概述 167
2.7.2Apriori關聯規則算法 170
2.7.3基於分類搜尋的關聯規則算法 171
2.7.4時序關聯規則算法 173
2.7.5多值屬性關聯規則算法 174
2.7.6增量關聯規則算法 175
2.7.7基於關聯規則的分類算法 176
2.7.8模糊關聯分類算法 177
2.7.9關聯規則的評價 178
2.7.10辛普森悖論 179
2.7.11基於matlab的關聯規則分析 180
2.8其他數據挖掘方法 182
2.8.1近鄰法 182
2.8.2K-means聚類 184
2.8.3基於matlab的近鄰法及k-means聚類法 187
第3章數據挖掘相關技術 191
3.1數據倉庫 192
3.1.1概述 192
3.1.2數據倉庫設計 195
3.1.3數據倉庫的開發套用 199
3.1.4數據倉庫的技術管理 209
3.1.5OLAP技術 210
3.1.6基於matlab的數據倉庫開發技術 214
3.2模糊集理論 234
3.1.1模糊集合 234
3.1.2模糊關係 237
3.1.3模糊聚類 239
3.3.5基於matlab的模糊集處理技術 244
3.3粗糙集技術 255
3.3.1粗糙集理論的基本概念 256
3.3.2分類規則的形成 259
3.3.3知識的約簡 259
3.3.4模糊集與粗糙集 261
3.3.5基於matlab的粗糙集處理方法 262
3.4目標最佳化技術 265
3.4.1極值問題 266
3.4.2無約束非線性規劃 267
3.4.3有約束非線性規劃 270
3.4.4大規模最佳化問題的分解算法 270
3.4.5其他最佳化方法 273
3.4.6基於matlab的目標最佳化方法 274
3.5可視化技術 281
3.5.1可視化技術分類 282
3.5.2多維數據可視化 283
3.5.3圖形的特徵分析 294
3.5.4基於多元圖的圖形分類方法 297
3.5.5基於色度學空間的多元圖表示 299
3.5.6基於matlab的數據可視化技術 300
3.6公式發現 314
3.6.1概述 315
3.6.2公式發現系統中的知識 315
3.6.3基於matlab的公式發現 319
3.7多媒體數據挖掘技術 320
3.7.1文本挖掘 323
3.7.2圖像挖掘 331
3.7.3視頻挖掘 331
3.7.4音頻挖掘 332
3.7.5複合類型數據的挖掘 333
3.8Web數據挖掘技術 334
3.8.1Web內容挖掘 335
3.8.2Web結構挖掘 337
3.8.3Web使用挖掘 338
第4章數據挖掘套用實戰 343
4.1數據關係發現 344
4.2數據統計特性 344
4.3數據預處理 349
4.3.1數據清理 349
4.3.2數據集成與轉換 351
4.3.3數據歸約與濃縮 353
4.3.4數值數據的概念分層與離散化 360
4.3.5例題 362
4.4分類 373
4.5例題 376
4.6預測 381
4.6.1回歸分析 381
4.6.2時間序列預測模型 385
4.6.3馬爾可夫鏈 389
4.6.4灰色系統方法 390
4.6.5例題 398
4.7聚類 418
4.7.1聚類分析概述 418
4.7.2聚類分析中的數據類型 419
4.7.3相似性度量 422
4.7.4聚類的特徵 427
4.7.5聚類準則 427
4.7.6劃分方法 429
4.7.7層次方法 430
4.7.8基於密度的方法 433
4.7.9基於格線的方法 434
4.7.10基於模型的聚類方法 435
4.4.11基於目標函式的方法 436
4.7.12離群點檢測 438
4.7.13聚類有效性 445
4.7.14例題 448
4.8時序數據挖掘 462
4.8.1基本定義 463
4.8.2時序數據挖掘參數 464
4.8.3時序關聯規則 464
4.8.4時間序列挖掘 466
4.8.5時間序列分段線性表示 468
4.8.6時間序列的預測 469
4.8.7例題 469
4.9關聯規則挖掘 481
4.9.1關聯規則的類型及挖掘算法 481
4.9.2基於組織進化的關聯規則挖掘 481
4.9.3基於組織層次進化的關聯規則挖掘 483
4.9.4多維關聯規則挖掘 484
4.9.5關聯規則擴展 485
4.9.6例題 487
參考文獻 500