圖書目錄
第1章 數據挖掘的概念
1.1 概述
1.2 數據挖掘的起源
1.3 數據挖掘過程
1.4 從數據收集到數據預處理
1.5 用於數據挖掘的數據倉庫
1.6 從大數據到數據科學
1.7 數據挖掘的商業方面:為什麼數據挖掘項目會失敗
1.8 本書結構安排
1.9 複習題
第2章 數據準備
2.1 原始數據的表述
2.2 原始數據的特性
2.3 原始數據的轉換
2.3.1 標準化
2.3.2 數據平整
2.3.3 差值和比率
2.4 丟失數據
2.5 時間相關數據
2.6 異常點分析
2.7 複習題
第3章 數據歸約
3.1 大型數據集的維度
3.2 特徵歸約
3.2.1 特徵選擇
3.2.2 特徵提取
3.3 Relief算法
3.4 特徵排列的熵度量
3.5 主成分分析
3.6 值歸約
3.7 特徵離散化:ChiMerge技術
3.8 案例歸約
3.9 複習題
第4章 從數據中學習
4.1 學習機器
4.2 統計學習原理
4.3 學習方法的類型
4.4 常見的學習任務
4.5 支持向量機
4.6 半監督支持向量機(S3VM)
4.7 k最近鄰分類器
4.8 模型選擇與泛化
4.9 模型的評估
4.10 不均衡的數據分類
4.11 90%準確的情形
4.11.1 保險欺詐檢測
4.11.2 改進心臟護理
4.12 複習題
第5章 統計方法
5.1 統計推斷
5.2 評測數據集的差異
5.3 貝葉斯定理
5.4 預測回歸
5.5 方差分析
5.6 對數回歸
5.7 對數-線性模型
5.8 線性判別分析
5.9 複習題
第6章 決策樹和決策規則
6.1 決策樹
6.2 C4.5 算法:生成決策樹
6.3 未知的屬性值
6.4 修剪決策樹
6.5 C4.5 算法:生成決策規則
6.6 CART算法和Gini指標
6.7 決策樹和決策規則的局限性
6.8 複習題
第7章 人工神經網路
7.1 人工神經元的模型
7.2 人工神經網路的結構
7.3 學習過程
……
第8章 集成學習
第9章 聚類分析
第10章 關聯規則
第11章 Web挖掘和文本挖掘
第12章 數據挖掘高級技術
第13章 遺傳算法
第14章 模糊集和模糊邏輯
第15章 可視化方法
附錄A數據挖掘工具
附錄B數據挖掘套用
作者簡介
[美]哈默德·坎塔爾季奇(Mehmed Kantardzic)博士,1980年獲得計算機科學博士學位,2004年起在路易斯維爾大學擔任教授。現任CSE(計算機科學與工程)副主席,數據挖掘實驗室主任,CSE研究生部主任。他的研究重點是數據挖掘和知識發現、機器學習、軟計算、點擊欺詐檢測和預防、流數據中的概念漂移以及醫療數據挖掘。Kantardzic博士的榮譽很多,研究論文獲得了許多傑出和榮譽提名獎,教學方面則曾榮獲喜愛的教師和傑出教學獎。他曾任職於多家國際期刊的編輯委員會,是美國國家科學基金會(NSF)等多個國家科學基金會的審核員和小組成員,擔任IEEEICMLA2018等多個國際會議的總主席或項目主席。