數據挖掘原理、算法與套用

數據挖掘原理、算法與套用

《數據挖掘原理、算法與套用》是2015年機械工業出版社出版的圖書,作者是梁亞聲。

基本介紹

  • 中文名:數據挖掘原理、算法與套用
  • 作者:梁亞聲
  • 出版時間:2015年04月23日
  • 出版社:機械工業出版社
  • ISBN:978-7-111-49632-8
  • 定價:49.0
  • 開本:16 開
  • 裝幀:平裝
內容簡介,目錄,

內容簡介

本書介紹了數據挖掘的基本概念和數據挖掘過程,以及數據挖掘發展歷程和趨勢,詳細介紹了數據存儲和組織、數據預處理、數據相似度與異常檢測等數據挖掘的基礎技術,詳細分類介紹了數據分類和預測、數據聚類分析、數據關聯分析等典型的數據挖掘技術,以及可信度評估技術,集中介紹了大數據環境下的數據挖掘技術。本書介紹了各種技術和算法的基本思想、基本原理、以及方法、步驟、模型和結構,分析其優點和局限性,給出典型套用實例

目錄

出版說明
前言
第1章概述
1 1從數據中獲取知識
1 2數據挖掘的基本概念
1 3數據挖掘的發展歷程
1 4數據挖掘的功能和數據挖掘
系統的分類
1 4 1分類與回歸
1 4 2聚類分析
1 4 3關聯規則
1 4 4時序模式
1 4 5異常檢測
1 4 6數據挖掘系統的分類
1 5數據挖掘的過程
1 5 1數據挖掘的一般流程
1 5 2跨行業數據挖掘標準過程
1 6數據挖掘與其他學科的關係
1 6 1數據挖掘與資料庫知識發現
1 6 2數據挖掘與資料庫查詢
1 6 3數據挖掘與統計分析
1 6 4數據挖掘與數據倉庫
1 6 5數據挖掘與在線上分析處理
1 6 6數據挖掘與人工智慧、專家系統、
機器學習
1 7數據挖掘的套用和發展趨勢
1 7 1商業的數據挖掘
1 7 2金融業的數據挖掘
1 7 3欺詐偵測中的數據挖掘
1 7 4DNA數據分析中的數據挖掘
1 7 5電信業中的數據挖掘
1 7 6科學和統計數據挖掘
1 7 7數據挖掘系統和軟體
1 7 8數據挖掘的發展趨勢
1 8小結
1 9習題
第2章數據存儲
2 1關係數據集
2 2數據倉庫
2 2 1數據倉庫的概念和特點
2 2 2數據倉庫的數據組織
2 2 3數據倉庫的關鍵技術
2 2 4數據倉庫與數據挖掘的關係
2 3NoSQL資料庫
2 3 1NoSQL概念與理論
2 3 2NoSQL數據模型
2 3 3NoSQL與關係資料庫
2 4 1分散式檔案系統的歷史
2 4 2分散式檔案系統的體系結構
2 4 3谷歌檔案系統(GoogleFS)
2 4 4Hadoop分散式檔案系統
(HDFS)
2 5小結
2 6習題
第3章數據預處理
3 1數據預處理的必要性
3 2數據清理
3 2 1缺失數據處理方法
3 2 2噪聲數據平滑技術
3 2 3時間相關數據的處理
3 3數據集成
3 3 1實體識別與匹配
3 3 2冗餘和相關分析
3 3 3元組重複數據的檢測
3 3 4衝突數據的檢測與處理
3 4數據轉換
3 4 1數據標準化
3 4 2數據泛化
3 5數據歸約
3 5 1數據立方體聚集
3 5 2維度歸約
3 5 3數據壓縮
3 5 4數值歸約
3 6數據離散化
3 6 1分箱方法
3 6 2直方圖分析
3 6 3基於熵的離散化
3 6 4ChiMerge技術
3 6 5人工劃分分段
3 7特徵提取、選擇和構造
3 7 1特徵提取
3 7 2特徵選擇
3 7 3特徵構造
3 8小結
3 9習題
第4章數據相似度與異常檢測
4 1相似度度量
4 1 1對象與屬性類型
4 1 2相似度度量的定義
4 1 3由距離度量變換而來的
相似度度量
4 1 4屬性之間的相似度度量
4 1 5對象之間的相似度度量
4 2傳統度量方法
4 2 1二值屬性的相似度度量
4 2 2歐氏距離
4 2 3餘弦距離
4 2 4Mahalanobis距離
4 2 5Jaccard距離
4 2 6海明距離
4 3大數據度量方法
4 3 1文檔的Shingling
4 3 2局部敏感散列算法
4 4異常檢測
4 4 1基於統計的檢測方法
4 4 2基於距離的檢測方法
4 4 3基於密度的檢測方法
4 4 4基於聚類的檢測方法
4 4 5基於分類的檢測方法
4 4 6高維數據中的異常點檢測
4 5小結
4 6習題
第5章數據分類和預測
5 1分類和預測的基本概念
5 1 1準備數據
5 1 2分類和預測方法的評估標準
5 2決策樹分類
5 2 1ID3算法生成決策樹
5 2 2C4 5算法生成決策樹
5 2 3CART算法和Gini指標
5 2 4決策樹歸納的可擴展性
5 2 5數據倉庫與決策樹
5 2 6決策樹和決策規則的局限性
5 3 2樸素貝葉斯分類
5 3 3貝葉斯信念網路
5 3 4訓練貝葉斯信念網路
5 4神經網路
5 4 2定義神經網路的拓撲結構
5 4 3後向傳播
5 4 4後向傳播和可理解性
5 5其他分類方法
5 5 1基於關聯的分類方法
5 5 2K-最近鄰分類
5 5 3基於案例推理
5 5 4遺傳算法
5 5 5粗糙集方法
5 5 6模糊集合方法
5 6預測算法
5 6 1預測算法分類
5 6 2預測算法選擇
5 6 3線性和多元回歸
5 6 5其他回歸模型
5 7分類預測套用實例
5 7 1樣本選取
5 7 2建立預測模型
5 7 3模型評估
5 7 4實用價值
5 8小結
5 9習題
第6章數據聚類分析
6 1基本概念
6 1 1對聚類分析的要求
6 1 2聚類分析方法分類
6 2劃分聚類算法
6 2 1K-means算法(基於質心的技術)
6 2 2K-medoids算法(基於代表對象的技術)
6 3層次聚類算法
6 3 1BIRCH算法
6 3 2CURE算法
6 3 3ROCK算法
6 3 4Chameleon算法
6 4基於密度的聚類算法
6 4 1DBSCAN算法
6 4 2OPTICS算法
6 4 3DENCLUE算法
6 5基於格線的聚類算法
6 5 1STING算法
6 5 2WaveCluster算法
6 5 3CLIQUE算法
6 6基於模型的聚類算法
6 6 1EM算法
6 6 2COBWEB算法
6 7聚類評估
6 7 1估計聚類趨勢
6 7 2確定簇數
6 7 3測定聚類質量
6 8聚類分析套用實例
6 8 1問題理解與提出
6 8 2數據收集與選擇
6 8 3數據預處理
6 8 4套用K-means聚類算法建模
6 9小結
6 10習題
第7章數據關聯分析
7 1數據關聯分析的基本概念
7 2頻繁項集產生
7 2 1先驗原理
7 2 2Apriori算法的頻繁項集產生
7 2 3支持度計數
7 2 4計算複雜度
7 3規則產生
7 3 1基本步驟
7 3 2Apriori算法中規則的產生
7 4頻繁項集的緊湊表示
7 4 2閉頻繁項集
7 5產生頻繁項集的其他方法
7 5 1項集格遍歷
7 5 2事務數據集的表示
7 6FP-Growth算法
7 6 1FP樹構造
7 6 2頻繁項集產生
7 7關聯評估
7 7 1興趣度客觀度量
7 7 2多個二元變數的度量
7 7 3傾斜支持度分布的影響
7 8關聯分析套用實例
7 8 1關聯分析學生成績
7 8 2數據處理
7 8 3算法的套用
7 8 4挖掘結果的分析
7 9小結
7 10習題
第8章性能評估和提升
8 1評分函式
8 1 1預測性評分函式
8 1 2描述性評分函式
8 1 3一致性評價
8 2成本評價
8 2 1成本評價曲線
8 2 2Cost-Sensitive學習
8 3複雜度評估
8 4驗證
8 4 1交叉驗證
8 4 2Bootstrap
8 4 3模型比較
8 5性能提升
8 5 1效率提升
8 5 2準確率提升
8 6小結
8 7習題
第9章複雜數據挖掘
9 1文本數據挖掘
9 1 1文本數據預處理
9 1 2文本數據挖掘技術
9 1 3文本數據挖掘的套用
9 2圖像數據挖掘
9 2 1圖像數據的特點和挖掘
技術現狀
9 2 2圖像數據預處理
9 2 3圖像數據挖掘技術
9 2 4圖像數據挖掘的套用
9 3語音識別挖掘
9 3 1語音數據特點及挖掘
技術現狀
9 3 2語音信號預處理
9 3 4語音識別技術的套用
9 4視頻數據挖掘
9 4 1視頻數據特點及挖掘
技術現狀
9 4 2視頻數據預處理
9 4 3視頻數據挖掘技術
9 4 4視頻數據挖掘的套用
9 5網路拓撲挖掘
9 5 1拓撲發現的技術現狀及網路
數據的採集
9 5 2基於挖掘技術的網路
拓撲發現
9 6網路輿情挖掘
9 6 1輿情研究發展現狀及輿情
特點
9 6 2網路輿情數據預處理
9 6 3網路輿情挖掘技術
9 7推薦系統
9 7 1推薦系統發展現狀
9 7 2相關技術
9 7 3推薦系統
9 8空間數據挖掘
9 8 1空間數據的特點
9 8 2空間數據預處理
9 8 3空間數據挖掘技術
9 8 4空間數據挖掘工具
9 9數據流挖掘
9 9 1數據流的特點
9 9 2數據流預處理
9 9 3數據流挖掘技術
9 9 4數據流挖掘技術的套用
9 10小結
9 11習題
參考文獻

相關詞條

熱門詞條

聯絡我們