《數據挖掘基礎教程》全面介紹數據挖掘的原理、方法和算法。主要內容包括數據挖掘的基本概念、數據挖掘算法的數據類型、輸入和輸出、決策樹、數據挖掘的預處理和後處理、關聯規則挖掘、分類和回歸算法、支持向量機、聚類分析及多維數據可視化。《數據挖掘基礎教程》講解深入淺出,並輔以大量實例,隨書光碟提供了大量數據集以及兩種廣泛使用的數據挖掘軟體——Weka和ExcelMiner,便於讀者理解數據挖掘知識。
基本介紹
- 書名:計算機科學叢書:數據挖掘基礎教程
- 作者:西蒙 (K.P.Soman)
- 出版社:機械工業出版社
- 頁數:305頁
- 開本:16
- 品牌:機械工業出版社
- 外文名:Insight into Data Mining Theory and Practice
- 譯者:范明
- 出版日期:2009年1月1日
- 語種:簡體中文
- ISBN:9787111255437
基本介紹,內容簡介,作者簡介,圖書目錄,文摘,序言,
基本介紹
內容簡介
《數據挖掘基礎教程》適合作為高等院校計算機及相關專業數據挖掘課程的教材,也可供廣大技術人員參考。
作者簡介
作者:(印度)西蒙 (K.P.Soman) 譯者:范明 牛常勇
圖書目錄
出版者的話
譯者序
前言
第1章 數據挖掘
1.1 引言
1.1.1 數據挖掘與知識發現
1.1.2 數據挖掘與數據分析
1.1.3 數據挖掘與統計學
1.1.4 數據挖掘與機器學習
1.2 數據挖掘——成功的例子
1.3 數據挖掘研究發展的主要原因
1.4 當前研究成果
1.5 圖形模型和層次機率表示
1.6 新的套用
1.7 影響數據挖掘的趨勢
1.8 研究挑戰
1.9 實驗平台和基礎設施
參考文獻
第2章 從商務角度看數據挖掘
2.1 引言
2.2 從數據挖掘工具到解決方案
2.3 數據挖掘系統的演變
2.4 知識發現過程
2.5 數據挖掘支撐技術概述
2.5.1 數據挖掘:驗證與發現
2.5.2 決策支持系統
2.5.3 OLAP
2.5.4 桌面DSS
2.5.5 數據倉庫
2.5.6 數據挖掘過程
2.6 數據挖掘技術
參考文獻
第3章 數據挖掘算法的數據類型、輸入和輸出
3.1 引言
3.2 實例和特徵
3.3 特徵(數據)的不同類型
3.4 概念學習與概念描述
3.5 數據挖掘的輸出——知識表示
3.5.1 分類學習算法的知識輸出
3.5.2 聚類學習算法的輸出
3.5.3 關聯規則的輸出
3.5.4 用於數值預測的樹的輸出
3.5.5 基於實例的學習和知識表示
參考文獻
第4章 決策樹——分類和回歸樹
4.1 引言
4.2 構造分類樹
4.2.1 用於標稱屬性的ID3算法
4.2.2 資訊理論和信息熵
4.2.3 構造樹
4.2.4 高分支屬性
4.2.5 從ID3到C4.5
4.2.6 形象化地理解ID3和C4.5算法
4.3 CHAID
4.3.1 CHAID的數學工具
4.3.2 CHAID變數的類型
4.3.3 CHAID算法
4.3.4 CHAID算法描述
4.3.5 將CHAID用於氣象數據
4.3.6 單調變數的預測子級別合併
4.4 CART(分類和回歸樹)
4.4.1 CART使用的不純性度量
4.4.2 Gini指數
4.4.3 使用Gini指數——一個例子
4.4.4 雙化指數
4.4.5 有序雙化
4.4.6 CAR了分析的步驟
4.5 回歸樹
4.5.1 回歸樹的一個例子
4.5.2 基於樹的回歸
4.5.3 最小二乘方回歸樹
4.5.4 Ls回歸樹的有效生長
4.5.5 連續變數上的劃分
4.5.6 離散變數上的劃分
4.5.7 模型樹
4.6 具有未知類值數據的類預測的一般問題
4.7 剪枝導論
4.8 模型評估
4.8.1 交叉確認:保持方法
4.8.2 模型比較
4.8.3 代價敏感的學習
習題
參考文獻
第5章 數據挖掘的預處理和後處理
5.1 引言
5.2 數據預處理的步驟
5.3 離散化
5.3.1 人工方法
5.3.2 分箱
5.3.3 基於熵的離散化
5.3.4 找出分割點的其他簡單方法
5.4 特徵提取、選擇和構造
5.4.1 特徵提取
5.4.2 特徵選擇
5.4.3 特徵構造
5.5 缺失數據及其處理方法和技術
5.5.1 什麼是缺失數據
5.5.2 缺失數據的主要原因
5.5.3 缺失數據的機制
5.5.4 缺失數據的機制——一個人工例子
5.6 在決策樹歸納中處理缺失數據的例子
5.7 後處理
參考文獻
第6章 數據集
6.1 引言
6.2 隱形眼鏡
6.3 鳶尾屬植物資料庫
6.4 乳腺癌資料庫
6.5 工資資料庫
6.6 信用卡資料庫
6.7 住宅資料庫
6.8 1985年汽車進口資料庫
6.9 徽章問題
6.9.1 問題描述
6.9.2 部分數據
第7章 關聯規則挖掘
7.1 引言
7.2 事務資料庫中關聯規則的自動發現
7.3 Apiiori算法
7.4 缺點
習題
參考文獻
第8章 用開源和商業軟體進行機器學習
8.1 用Weka進行機器學習
8.1.1 開始
8.1.2 裝人數據
8.1.3 選擇或過濾屬性
8.1.4 離散化
8.1.5 關聯規則挖掘
8.1.6 分類
8.1.7 聚類
8.2 XLMINER
參考文獻
第9章 分類和回歸算法
9.1 引言
9.2 樸素貝葉斯
9.2.1 樸素貝葉斯的零頻率問題
9.2.2 缺失值和數值屬性
9.3 多元回歸分析
9.3.1 什麼是回歸分析
9.3.2 簡單和多元回歸分析
9.3.3 在市場行銷中的套用
9.3.4 方法
9.3.5 使用Excel進行多元回歸分析
9.3.6 輸人數據
9.3.7 回歸輸出
9.4 邏輯斯諦回歸
9.5 k-最近鄰分類
9.5.1 k-近鄰預測
9.5.2 k-NN算法的缺點
9.6 GMDH
9.6.1 引言
9.6.2 數據處理群組方法的背景
9.6.3 構建決策規則
9.6.4 實驗結果
9.6.5 討論和總結
9.7 進化計算和遺傳算法
9.7.1 進化理論
9.7.2 遺傳算法
9.7.3 使用遺傳算法進行機器學習
習題
參考文獻
第10章 支持向量機
10.1 引言
10.2 線性支持向量機的基本思想
10.3 軟邊緣SVM:線性核
10.3.1 線性SVM的線性規劃公式表示
10.3.2 有訓練誤差的SVM:非線性核
10.4 鄰近支持向量機
10.5 生成數據集
10.5.1 螺旋數據生成器
10.5.2 棋盤格數據集
10.5.3 多元常態分配數據生成器
10.6 問題及解答
習題
參考文獻
第11章 聚類分析
11.1 引言
11.1.1 相似性及其度量
11.1.2 聚類的基本類型
11.2 劃分聚類
11.3 k-中心點
11.4 現代聚類方法
11.5 BIRCH
11.6 DBSCAN
11.6.1 DBSCAN算法的概念
11.6.2 DBSCAN的基本概念和算法
11.6.3 算法
11.6.4 DBSCAN算法的優點
11.7 OPTICS
11.7.1 引言
11.7.2 OPTICS算法的動機
11.7.3 OPTICS採用的概念
11.7.4 OPTICS算法
11.7.5 可達圖
11.7.6 優點
11.7.7 缺點
11.8 基於圖劃分的聚類
11.8.1 加權圖劃分
11.8.2 平衡圖劃分——基本原則
11.8.3 κ路劃分
11.9 CHAMELEON:兩階段聚類算法
11.9.1 數據建模
11.9.2 簇相似性建模
11.9.3 CHAMELEON的兩個階段
11.9.4 用例子說明CHAMELEON算法
11.10 COBWEB概念聚類算法
11.10.1 COBWEB算法
11.10.2 COBWEB:一個簡單例子
11.11 GCLUTO:圖形化聚類工具箱
11.11.1 概述
11.11.2 GCLUTO中的可用選項
11.11.3 使用GCLUTO進行文本
挖掘
習題
參考文獻
第12章 多維數據可視化
12.1 引言
12.2 多維可視化的圖表表示
12.2.1 kiviat圖
12.2.2 平行坐標系
12.2.3 3D散點圖
12.2.4 3D曲線圖
12.2.5 體積透視圖
12.2.6 房圖
12.2.7 Chemoff臉圖
12.3 可視化數據挖掘
參考文獻
附錄A SVM公式:完全可分的線性分類器
附錄B 圖劃分的矩陣形式
譯者序
前言
第1章 數據挖掘
1.1 引言
1.1.1 數據挖掘與知識發現
1.1.2 數據挖掘與數據分析
1.1.3 數據挖掘與統計學
1.1.4 數據挖掘與機器學習
1.2 數據挖掘——成功的例子
1.3 數據挖掘研究發展的主要原因
1.4 當前研究成果
1.5 圖形模型和層次機率表示
1.6 新的套用
1.7 影響數據挖掘的趨勢
1.8 研究挑戰
1.9 實驗平台和基礎設施
參考文獻
第2章 從商務角度看數據挖掘
2.1 引言
2.2 從數據挖掘工具到解決方案
2.3 數據挖掘系統的演變
2.4 知識發現過程
2.5 數據挖掘支撐技術概述
2.5.1 數據挖掘:驗證與發現
2.5.2 決策支持系統
2.5.3 OLAP
2.5.4 桌面DSS
2.5.5 數據倉庫
2.5.6 數據挖掘過程
2.6 數據挖掘技術
參考文獻
第3章 數據挖掘算法的數據類型、輸入和輸出
3.1 引言
3.2 實例和特徵
3.3 特徵(數據)的不同類型
3.4 概念學習與概念描述
3.5 數據挖掘的輸出——知識表示
3.5.1 分類學習算法的知識輸出
3.5.2 聚類學習算法的輸出
3.5.3 關聯規則的輸出
3.5.4 用於數值預測的樹的輸出
3.5.5 基於實例的學習和知識表示
參考文獻
第4章 決策樹——分類和回歸樹
4.1 引言
4.2 構造分類樹
4.2.1 用於標稱屬性的ID3算法
4.2.2 資訊理論和信息熵
4.2.3 構造樹
4.2.4 高分支屬性
4.2.5 從ID3到C4.5
4.2.6 形象化地理解ID3和C4.5算法
4.3 CHAID
4.3.1 CHAID的數學工具
4.3.2 CHAID變數的類型
4.3.3 CHAID算法
4.3.4 CHAID算法描述
4.3.5 將CHAID用於氣象數據
4.3.6 單調變數的預測子級別合併
4.4 CART(分類和回歸樹)
4.4.1 CART使用的不純性度量
4.4.2 Gini指數
4.4.3 使用Gini指數——一個例子
4.4.4 雙化指數
4.4.5 有序雙化
4.4.6 CAR了分析的步驟
4.5 回歸樹
4.5.1 回歸樹的一個例子
4.5.2 基於樹的回歸
4.5.3 最小二乘方回歸樹
4.5.4 Ls回歸樹的有效生長
4.5.5 連續變數上的劃分
4.5.6 離散變數上的劃分
4.5.7 模型樹
4.6 具有未知類值數據的類預測的一般問題
4.7 剪枝導論
4.8 模型評估
4.8.1 交叉確認:保持方法
4.8.2 模型比較
4.8.3 代價敏感的學習
習題
參考文獻
第5章 數據挖掘的預處理和後處理
5.1 引言
5.2 數據預處理的步驟
5.3 離散化
5.3.1 人工方法
5.3.2 分箱
5.3.3 基於熵的離散化
5.3.4 找出分割點的其他簡單方法
5.4 特徵提取、選擇和構造
5.4.1 特徵提取
5.4.2 特徵選擇
5.4.3 特徵構造
5.5 缺失數據及其處理方法和技術
5.5.1 什麼是缺失數據
5.5.2 缺失數據的主要原因
5.5.3 缺失數據的機制
5.5.4 缺失數據的機制——一個人工例子
5.6 在決策樹歸納中處理缺失數據的例子
5.7 後處理
參考文獻
第6章 數據集
6.1 引言
6.2 隱形眼鏡
6.3 鳶尾屬植物資料庫
6.4 乳腺癌資料庫
6.5 工資資料庫
6.6 信用卡資料庫
6.7 住宅資料庫
6.8 1985年汽車進口資料庫
6.9 徽章問題
6.9.1 問題描述
6.9.2 部分數據
第7章 關聯規則挖掘
7.1 引言
7.2 事務資料庫中關聯規則的自動發現
7.3 Apiiori算法
7.4 缺點
習題
參考文獻
第8章 用開源和商業軟體進行機器學習
8.1 用Weka進行機器學習
8.1.1 開始
8.1.2 裝人數據
8.1.3 選擇或過濾屬性
8.1.4 離散化
8.1.5 關聯規則挖掘
8.1.6 分類
8.1.7 聚類
8.2 XLMINER
參考文獻
第9章 分類和回歸算法
9.1 引言
9.2 樸素貝葉斯
9.2.1 樸素貝葉斯的零頻率問題
9.2.2 缺失值和數值屬性
9.3 多元回歸分析
9.3.1 什麼是回歸分析
9.3.2 簡單和多元回歸分析
9.3.3 在市場行銷中的套用
9.3.4 方法
9.3.5 使用Excel進行多元回歸分析
9.3.6 輸人數據
9.3.7 回歸輸出
9.4 邏輯斯諦回歸
9.5 k-最近鄰分類
9.5.1 k-近鄰預測
9.5.2 k-NN算法的缺點
9.6 GMDH
9.6.1 引言
9.6.2 數據處理群組方法的背景
9.6.3 構建決策規則
9.6.4 實驗結果
9.6.5 討論和總結
9.7 進化計算和遺傳算法
9.7.1 進化理論
9.7.2 遺傳算法
9.7.3 使用遺傳算法進行機器學習
習題
參考文獻
第10章 支持向量機
10.1 引言
10.2 線性支持向量機的基本思想
10.3 軟邊緣SVM:線性核
10.3.1 線性SVM的線性規劃公式表示
10.3.2 有訓練誤差的SVM:非線性核
10.4 鄰近支持向量機
10.5 生成數據集
10.5.1 螺旋數據生成器
10.5.2 棋盤格數據集
10.5.3 多元常態分配數據生成器
10.6 問題及解答
習題
參考文獻
第11章 聚類分析
11.1 引言
11.1.1 相似性及其度量
11.1.2 聚類的基本類型
11.2 劃分聚類
11.3 k-中心點
11.4 現代聚類方法
11.5 BIRCH
11.6 DBSCAN
11.6.1 DBSCAN算法的概念
11.6.2 DBSCAN的基本概念和算法
11.6.3 算法
11.6.4 DBSCAN算法的優點
11.7 OPTICS
11.7.1 引言
11.7.2 OPTICS算法的動機
11.7.3 OPTICS採用的概念
11.7.4 OPTICS算法
11.7.5 可達圖
11.7.6 優點
11.7.7 缺點
11.8 基於圖劃分的聚類
11.8.1 加權圖劃分
11.8.2 平衡圖劃分——基本原則
11.8.3 κ路劃分
11.9 CHAMELEON:兩階段聚類算法
11.9.1 數據建模
11.9.2 簇相似性建模
11.9.3 CHAMELEON的兩個階段
11.9.4 用例子說明CHAMELEON算法
11.10 COBWEB概念聚類算法
11.10.1 COBWEB算法
11.10.2 COBWEB:一個簡單例子
11.11 GCLUTO:圖形化聚類工具箱
11.11.1 概述
11.11.2 GCLUTO中的可用選項
11.11.3 使用GCLUTO進行文本
挖掘
習題
參考文獻
第12章 多維數據可視化
12.1 引言
12.2 多維可視化的圖表表示
12.2.1 kiviat圖
12.2.2 平行坐標系
12.2.3 3D散點圖
12.2.4 3D曲線圖
12.2.5 體積透視圖
12.2.6 房圖
12.2.7 Chemoff臉圖
12.3 可視化數據挖掘
參考文獻
附錄A SVM公式:完全可分的線性分類器
附錄B 圖劃分的矩陣形式
文摘
第1章 數據挖掘
1.1 引言
計算機科學家經常提到摩爾定律:計算機的處理速度大約每18個月翻一番。但是很少有人知道計算機的存儲容量大約每9個月翻一番。(Goebel和Gruenwald 1999)。像理想氣體一樣,計算機的資料庫迅速膨脹,占滿了可用的存儲空間,導致資料庫中的大量數據成為未開發利用的資源。這些數據就像一個金礦,可以從中提取信息。然後,利用數據挖掘技術,可以將這些信息轉換成有價值的知識。
很難說清楚有多少存儲在全世界公司、學校、政府部門和其他機構的大型資料庫中未使用的海量數據以及其當前增長率。據估計,美國國會圖書館存儲的信息量高達3PB(Lesk1997)。Lesk估計,全世界每年大約產生160TB信息。而且,他估計已售出的磁碟空間將超過十萬TB。很快,計算機的數據存儲容量將超過人們使用該數據存儲和使用其中數據的能力。將海量數據轉換為知識的過程將變得價值無限。為此,在過去的10~15年中,一種稱作資料庫中知識發現(KDD)的過程逐步發展完善。數據挖掘算法就包含在KDD過程中。
典型的資料庫用戶使用一種界面通過諸如SQL這樣的標準技術從資料庫中檢索數據。數據挖掘系統將這一過程向前推進一步,支持用戶從數據中發現新的知識(Adriaans和Zantinge 1996)。按照計算機科學家的觀點,數據挖掘是一個多學科交叉領域。諸如神經網路、遺傳算法、回歸、統計分析、機器學習和聚類分析等數據處理技術經常出現在數據挖掘文獻中。許多研究者認為數據挖掘還不是一個完善的學科,數據可擴展性、與資料庫系統的兼容性,以及可用性和準確性都有待改進。
1.1 引言
計算機科學家經常提到摩爾定律:計算機的處理速度大約每18個月翻一番。但是很少有人知道計算機的存儲容量大約每9個月翻一番。(Goebel和Gruenwald 1999)。像理想氣體一樣,計算機的資料庫迅速膨脹,占滿了可用的存儲空間,導致資料庫中的大量數據成為未開發利用的資源。這些數據就像一個金礦,可以從中提取信息。然後,利用數據挖掘技術,可以將這些信息轉換成有價值的知識。
很難說清楚有多少存儲在全世界公司、學校、政府部門和其他機構的大型資料庫中未使用的海量數據以及其當前增長率。據估計,美國國會圖書館存儲的信息量高達3PB(Lesk1997)。Lesk估計,全世界每年大約產生160TB信息。而且,他估計已售出的磁碟空間將超過十萬TB。很快,計算機的數據存儲容量將超過人們使用該數據存儲和使用其中數據的能力。將海量數據轉換為知識的過程將變得價值無限。為此,在過去的10~15年中,一種稱作資料庫中知識發現(KDD)的過程逐步發展完善。數據挖掘算法就包含在KDD過程中。
典型的資料庫用戶使用一種界面通過諸如SQL這樣的標準技術從資料庫中檢索數據。數據挖掘系統將這一過程向前推進一步,支持用戶從數據中發現新的知識(Adriaans和Zantinge 1996)。按照計算機科學家的觀點,數據挖掘是一個多學科交叉領域。諸如神經網路、遺傳算法、回歸、統計分析、機器學習和聚類分析等數據處理技術經常出現在數據挖掘文獻中。許多研究者認為數據挖掘還不是一個完善的學科,數據可擴展性、與資料庫系統的兼容性,以及可用性和準確性都有待改進。
序言
大規模數據集快速增長的今天,數據挖掘應成為一個新的學科。我們生活在這樣一個世界,即便是簡單的日常任務,如打電話、使用信用卡或購買五金電器和雜貨,都會留下電子印記。諸如核物理和天體物理領域科學實驗數量的增加導致每月可能產生幾PB (petabytes)規模的數據。近來,生命科學正在成為數據驅動的科學。
廣泛用於商業和上述科學領域中的自動數據收集設備每小時能夠產生幾TB(terabytes)規模的數據,致使已有的推理方法過時。世界上最大的數據倉庫——Walmart系統包含500 TB數據。它實在太大,以至於無法裝入任何計算機的記憶體。數據挖掘技術的產生源自進行數據處理業務的企業和進行數據處理研究的科學家需要找到有效的模式來自動處理海量數據。模式可以是簡單的數據匯總、數據劃分或數據內部的依賴模型。
廣泛用於商業和上述科學領域中的自動數據收集設備每小時能夠產生幾TB(terabytes)規模的數據,致使已有的推理方法過時。世界上最大的數據倉庫——Walmart系統包含500 TB數據。它實在太大,以至於無法裝入任何計算機的記憶體。數據挖掘技術的產生源自進行數據處理業務的企業和進行數據處理研究的科學家需要找到有效的模式來自動處理海量數據。模式可以是簡單的數據匯總、數據劃分或數據內部的依賴模型。