基本介紹
- 中文名:智慧型數據挖掘——面向不確定數據的頻繁模式
- 作者:於曉梅、王紅
- 出版社:清華大學出版社
- 出版時間:2018年6月
- 定價:49 元
- ISBN:9787302499855
內容簡介,圖書目錄,
內容簡介
本書全面總結了不確定數據環境下頻繁模式挖掘領域的主要研究成果,從數據模型、問題定義、常用算法等方面系統介紹不確定頻繁項集挖掘、不確定序列模式挖掘、不確定頻繁子圖模式挖掘、不確定高效用項集挖掘和不確定加權頻繁項集挖掘技術。重點針對兩類典型的不確定數據,即機率數據和容錯數據,進行機率頻繁模式挖掘和近似頻繁模式挖掘的研究,並套用於傳統中醫藥數據環境下,從主觀不確定性和客觀不確定性兩個方面提出相應的解決方案,實現基於不確定數據的高效頻繁模式挖掘,並通過實驗驗證了它們的有效性和實用性。
本書主要面向對數據挖掘和機器學習感興趣的科研人員和學生,特別適合從事不確定數據挖掘、頻繁模式挖掘和關聯規則發現以及相關研究領域的廣大科技工作者和研究人員使用,也可以作為數據挖掘和機器學習相關課程的教學參考書。
圖書目錄
第1章不確定頻繁模式挖掘概述1
1.1不確定數據挖掘1
1.2不確定頻繁模式挖掘研究背景2
1.3相關工作5
1.3.1完整的頻繁項集挖掘6
1.3.2頻繁閉項集挖掘8
1.3.3最大頻繁項集挖掘9
1.3.4Topk頻繁模式挖掘10
1.3.5近似頻繁模式挖掘11
1.4研究內容與本書貢獻12
1.4.1研究內容12
1.4.2本書貢獻13
1.5本書結構15第2章不確定頻繁模式挖掘技術17
2.1數據不確定性的原因17
2.2可能性世界理論和機率資料庫18
2.3不確定頻繁項集挖掘19
2.3.1基於機率數據的不確定數據模型20
2.3.2基於水平數據格式的挖掘方法21/智慧型數據挖掘——面向不確定數據的頻繁模式/2.3.3基於垂直數據格式的挖掘方法22
2.4不確定序列模式挖掘24
2.4.1不確定序列數據模型25
2.4.2不確定序列模式挖掘技術28
2.5不確定頻繁子圖模式挖掘32
2.5.1不確定圖數據模型33
2.5.2不確定頻繁子圖模式挖掘技術37
2.6不確定高效用項集挖掘41
2.6.1不確定高效用數據模型41
2.6.2不確定高效用項集挖掘技術44
2.7不確定加權頻繁項集挖掘46
2.7.1不確定加權數據模型47
2.7.2不確定加權頻繁項集挖掘技術48
2.8本章小結52第3章Eclat框架下基於支持度的雙向排序策略53
3.1基於垂直數據格式的Eclat算法53
3.1.1存在的問題53
3.1.2支持度性質及證明54
3.2基於支持度排序的雙向處理策略56
3.2.1支持度升序排列階段56
3.2.2支持度降序排列階段57
3.2.3頻繁項集挖掘中的雙向處理策略57
3.2.4BiEclat算法58
3.2.5BiEclat算法示例59
3.3機率頻繁模式挖掘中的雙向排序策略61
3.3.1基於機率數據的不確定頻繁模式挖掘61
3.3.2基於機率頻度的雙向排序策略64
3.4實驗結果及分析65
3.4.1實驗數據集65
3.4.2實驗結果分析67
3.5本章小結76第4章Eclat框架下的機率頻繁項集挖掘算法77
4.1機率頻繁項集挖掘相關概念77
4.2機率頻繁項集精確挖掘算法79
4.2.1相關工作80
4.2.2Tidlist數據結構81
4.2.3機率頻度計算模組81
4.2.4UBEclat算法83
4.3機率頻繁項集近似挖掘算法85
4.3.1近似挖掘理論基礎85
4.3.2近似挖掘相關工作86
4.3.3NDUEclat算法88
4.4實驗結果及分析89
4.4.1實驗數據集90
4.4.2常態分配數據集中的性能分析90
4.4.3長尾分布數據集中的性能分析92
4.5本章小結95第5章基於粗糙集理論的近似頻繁模式挖掘96
5.1容錯數據中的頻繁模式挖掘理論96
5.1.1容錯數據模型96
5.1.2容錯數據的挑戰96
5.1.3粗糙集理論及相關概念99
5.1.4粗糙集理論在數據挖掘中的套用99
5.2面向容錯數據的近似頻繁模式挖掘101
5.2.1事務信息系統構建階段101
5.2.2等價類生成階段103
5.2.3下近似和上近似的定義104
5.2.4近似頻繁模式挖掘階段106
5.2.5精確度和覆蓋度的定義108
5.3實驗結果及分析109
5.3.1模擬數據集上的性能分析109
5.3.2真實數據集上的性能分析111
5.4本章小結115第6章在傳統中醫藥數據集中挖掘Topk近似頻繁閉模式116
6.1相關工作116
6.1.1面臨的問題117
6.1.2近似頻繁模式挖掘算法118
6.2基於粗糙集理論的Topk近似頻繁閉模式挖掘123
6.2.1事務類劃分階段124
6.2.2核模式產生階段126
6.2.3Topk近似頻繁閉模式挖掘階段129
6.3實驗結果和分析131
6.3.1基於支持度的聚類算法性能分析131
6.3.2Topk近似頻繁閉模式挖掘算法性能分析135
6.3.3實驗結果分析138
6.4本章小結138第7章總結和展望140
7.1本書總結140
7.2研究展望141參考文獻143