數據倉庫與數據挖掘實踐

數據倉庫與數據挖掘實踐

《數據倉庫與數據挖掘實踐》是2014年由電子工業出版社出版的圖書,作者是李春葆,李石君,李筱馳。

基本介紹

  • 書名:數據倉庫與數據挖掘實踐
  • 作者:李春葆,李石君,李筱馳
  • ISBN:9787121244926
  • 頁數:368
  • 出版時間:2014-11
  • 開本:16(185*260)
內容簡介,目錄,

內容簡介


本書系統地介紹了數據倉庫和數據挖掘技術,全本由兩部分組成,第1章到第3章介紹數據倉庫的基本概念和相關技術,第4章到第11章介紹數據挖掘的基本概念和各種算法,包括數據倉庫構建、OLAP技術、分類方法、聚類方法、關聯分析、序列模式挖掘方法、回歸和時序分析、粗糙集理論、文本挖掘、Web挖掘和空間數據挖掘方法等。
本書既注重原理,又注重實踐,配有大量圖表、示例和練習題,內容豐富,概念講解清楚,表達嚴謹,邏輯性強,語言精練,可讀性好。 本書既便於教師課堂講授,又便於自學者閱讀。適合作為高等院校高年級學生和研究生“數據倉庫和數據挖掘”或“數據挖掘算法”課程的教材。

目錄

第 1 章數據倉庫概述 (1)
1.1 數據倉庫及其歷史 (1)
1.1.1 資料庫技術的發展· (1)
1.1.2 什麼是數據倉庫····· (2)
1.2 數據倉庫系統及其開發工具···· (5)
1.2.1 數據倉庫系統的組成···· (5)
1.2.2 ETL ············ (6)
1.2.3 數據倉庫和數據集市的關係····· (6)
1.2.4 元數據及其管理····· (7)
1.3 數據倉庫系統開發工具······ (8)
1.4 數據倉庫與操作型資料庫的關係········· (9)
1.4.1 從資料庫到數據倉庫···· (9)
1.4.2 數據倉庫為什麼是分離的········(10)
1.4.3 數據倉庫與操作型資料庫的對比·········(10)
1.4.4 ODS ··········(11)
1.5 商務智慧型與數據倉庫的關係···(11)
練習題 1 ···········(12)
思考題 1 ···········(13)
第 2 章數據倉庫設計···· (14)
2.1 數據倉庫設計概述············(14)
2.1.1 數據倉庫設計原則(14)
2.1.2 數據倉庫構建模式(14)
2.1.3 數據倉庫設計步驟(15)
2.2 數據倉庫的規劃和需求分析···(15)
2.2.1 數據倉庫的規劃····(15)
2.2.2 數據倉庫的需求分析···(16)
2.3 數據倉庫的建模···(17)
2.3.1 多維數據模型及相關概念········(17)
·VI·
2.3.2 多維數據模型的實現··(18)
2.3.3 數據倉庫建模的主要工作········(19)
2.3.4 幾種常見的基於關係資料庫的多維數據模型···(21)
2.4 數據倉庫的物理模型設計·(26)
2.4.1 確定數據的存儲結構··(27)
2.4.2 確定索引策略········(27)
2.4.3 確定存儲分配········(27)
2.5 數據倉庫的部署和維護····(28)
2.5.1 數據倉庫的部署····(28)
2.5.2 數據倉庫的維護····(28)
2.6 一個簡單的數據倉庫SDWS 設計示例············(29)
2.6.1 SDWS 的需求分析(29)
2.6.2 SDWS 的建模········(29)
2.6.3 基於SQL Server 2008 設計SDWS·······(35)
練習題 2···········(42)
思考題 2···········(43)
第 3 章 OLAP 技術·· (44)
3.1 OLAP 概述···········(44)
3.1.1 什麼是OLAP ········(44)
3.1.2 OLAP 技術的特性·(44)
3.1.3 OLAP 和OLTP 的區別············(45)
3.1.4 數據倉庫與OLAP 的關係·······(46)
3.1.5 OLAP 分類············(46)
3.2 OLAP 的多維數據模型·····(48)
3.2.1 多維數據模型的定義··(48)
3.2.2 OLAP 的基本分析操作············(49)
3.2.3 一個簡單的多維數據模型········(53)
3.3 OLAP 實現···········(56)
3.3.1 數據立方體的有效計算···········(56)
3.3.2 索引OLAP 數據···(61)
3.3.3 OLAP 查詢的有效處理············(62)
練習題 3···········(63)
思考題 3···········(64)
第 4 章數據挖掘概述···· (65)
4.1 什麼是數據挖掘···(65)
4.1.1 數據挖掘的定義····(65)
4.1.2 數據挖掘的知識表示··(66)
4.1.3 數據挖掘的主要任務··(66)
4.1.4 數據挖掘的發展····(67)
·VII·
4.1.5 數據挖掘的對象····(67)
4.1.6 數據挖掘的分類····(68)
4.1.7 數據挖掘與數據倉庫及OLAP 的關係·(68)
4.1.8 數據挖掘的套用····(69)
4.2 數據挖掘系統·······(70)
4.2.1 數據挖掘系統的結構···(70)
4.2.2 數據挖掘系統的設計···(71)
4.2.3 常用的數據挖掘系統及其發展(73)
4.3 數據挖掘過程·······(74)
4.3.1 數據挖掘步驟········(74)
4.3.2 數據清理···(74)
4.3.3 數據集成···(75)
4.3.4 數據變換···(76)
4.3.5 數據歸約···(77)
4.3.6 離散化和概念分層生成············(79)
4.3.7 數據挖掘的算法····(81)
4.4 數據挖掘的未來展望·········(83)
練習題 4 ···········(83)
思考題 4 ···········(84)
第 5 章關聯分析····· (85)
5.1 關聯分析的概念···(85)
5.1.1 事務資料庫············(85)
5.1.2 關聯規則及其度量(86)
5.1.3 頻繁項集···(87)
5.1.4 挖掘關聯規則的基本過程········(87)
5.2 Apriori 算法··········(88)
5.2.1 Apriori 性質···········(88)
5.2.2 Apriori 算法···········(89)
5.2.3 由頻繁項集產生關聯規則········(93)
5.2.4 提高Apriori 算法的有效性······(96)
5.2.5 非二元屬性的關聯規則挖掘····(99)
5.3 頻繁項集的緊湊表示·······(100)
5.3.1 最大頻繁項集······(100)
5.3.2 頻繁閉項集··········(101)
5.4 FP-growth 算法···(103)
5.4.1 FP-growth 算法框架··(103)
5.4.2 FP 樹構造············(104)
5.4.3 由FP 樹產生頻繁項集···········(107)
5.5 多層關聯規則的挖掘·······(109)
·VIII·
5.5.1 多層關聯規則的挖掘概述······ (109)
5.5.2 多層關聯規則的挖掘算法······ (111)
5.5.3 多維關聯規則······ (114)
5.6 其他類型的關聯規則······ (114)
5.6.1 基於約束的關聯規則 (114)
5.6.2 負關聯規則·········· (114)
5.7 SQL Server 挖掘關聯規則的示例······ (115)
5.7.1 建立DM 資料庫· (115)
5.7.2 建立關聯挖掘項目···· (116)
5.7.3 部署關聯挖掘項目並瀏覽結果··········· (120)
練習題 5········· (122)
思考題 5········· (126)
第 6 章序列模式挖掘···(127)
6.1 序列模式挖掘概述·········· (127)
6.1.1 序列資料庫·········· (127)
6.1.2 序列模式挖掘算法···· (129)
6.2 Apriori 類算法···· (130)
6.2.1 AprioriAll 算法···· (130)
6.2.2 AprioriSome 算法 (135)
6.2.3 DynamicSome 算法··· (138)
6.2.4 GSP 算法 (140)
6.2.5 SPADE 算法········ (144)
6.3 模式增長框架的序列挖掘算法·········· (150)
6.3.1 FreeSpan 算法······ (150)
6.3.2 PrefixSpan 算法··· (152)
練習題 6········· (155)
思考題 6········· (157)
第 7 章分類方法····(158)
7.1 分類過程············ (158)
7.1.1 學習階段 (158)
7.1.2 分類階段 (160)
7.2 k-最鄰近分類算法··········· (160)
7.3 決策樹分類算法· (162)
7.3.1 決策樹···· (162)
7.3.2 建立決策樹的ID3 算法········· (163)
7.3.3 建立決策樹的C4.5 算法········ (173)
7.4 貝葉斯分類算法· (175)
7.4.1 貝葉斯分類概述·· (175)
7.4.2 樸素貝葉斯分類·· (177)
·IX·
7.4.3 樹增強樸素貝葉斯分類··········(183)
7.5 神經網路算法·····(185)
7.5.1 生物神經元和人工神經元······(185)
7.5.2 人工神經網路······(187)
7.5.3 前饋神經網路用於分類··········(189)
7.5.4 SQL Server 中神經網路分類示例·······(196)
7.6 支持向量機·········(199)
7.6.1 線性可分時的二元分類問題··(199)
7.6.2 線性不可分時的二元分類問題···········(203)
練習題 7 ·········(206)
思考題 7 ·········(209)
第 8 章回歸分析和時序挖掘·····(210)
8.1 線性和非線性回歸分析···(210)
8.1.1 一元線性回歸分析····(210)
8.1.2 多元線性回歸分析····(213)
8.1.3 非線性回歸分析··(214)
8.2 邏輯回歸分析·····(217)
8.2.1 邏輯回歸原理······(217)
8.2.2 邏輯回歸模型······(218)
8.2.3 SQL Server 中邏輯回歸分析示例·······(219)
8.3 時序分析模型·····(221)
8.3.1 時序分析概述······(221)
8.3.2 時序預測的常用方法·(222)
8.3.3 回歸分析與時序分析的關係··(223)
8.3.4 確定性時序模型··(223)
8.3.5 隨機時序模型······(226)
8.3.6 SQL Server 建立隨機時序模型示例····(228)
8.4 時序的相似性搜尋··········(231)
8.4.1 相似性搜尋的概念····(231)
8.4.2 完全匹配·(232)
8.4.3 基於離散傅立葉變換的子序列匹配····(232)
8.4.4 基於規範變換的子序列匹配··(234)
練習題 8 ·········(236)
思考題 8 ·········(237)
第 9 章粗糙集理論(238)
9.1 粗糙集理論概述·(238)
9.1.1 粗糙集理論的產生····(238)
9.1.2 粗糙集理論的特點····(238)
9.1.3 粗糙集理論在數據挖掘中的套用·······(239)
·X·
9.2 粗糙集理論中的基本概念····· (239)
9.2.1 集合的基本概念·· (239)
9.2.2 信息系統和粗糙集···· (240)
9.2.3 分類的近似度量·· (244)
9.3 信息系統的屬性約簡······ (245)
9.3.1 約簡和核 (245)
9.3.2 分辨矩陣求核······ (246)
9.4 決策表及其屬性約簡······ (247)
9.4.1 決策表及相關概念···· (247)
9.4.2 決策表的屬性約簡算法········· (251)
9.5 決策表的值約簡及其算法····· (258)
9.5.1 決策規則及其簡化···· (258)
9.5.2 決策規則的極小化···· (261)
9.6 粗糙集在數據挖掘中的套用示例······ (265)
練習題 9········· (266)
思考題 9········· (269)
第 10 章聚類方法··(270)
10.1 聚類概述·········· (270)
10.1.1 什麼是聚類········ (270)
10.1.2 相似性測度········ (270)
10.1.3 聚類過程··········· (272)
10.1.4 聚類算法的評價 (272)
10.1.5 聚類方法的分類 (274)
10.1.6 聚類分析在數據挖掘中的套用········· (275)
10.1.7 聚類算法的要求 (275)
10.2 基於劃分的聚類算法···· (276)
10.2.1 k-均值算法········· (276)
10.2.2 k-中心點算法····· (283)
10.3 基於層次的聚類算法···· (285)
10.3.1 層次聚類算法概述·· (285)
10.3.2 DIANA 算法和AGNES 算法············ (287)
10.3.3 BIRCH 算法······ (289)
10.3.4 CURE 算法········ (292)
10.3.5 ROCK 算法········ (294)
10.3.6 Chameleon 算法· (295)
10.4 基於密度的聚類算法···· (299)
10.4.1 DBSCAN 算法··· (299)
10.4.2 OPTICS 算法····· (302)
10.5 基於格線的聚類算法···· (305)
·XI·
10.5.1 STING 算法·······(305)
10.5.2 WaveCluster 算法·····(307)
10.5.3 CLIQUE 算法·····(309)
10.6 基於模型的聚類算法·····(310)
10.6.1 EM 算法(310)
10.6.2 COBWEB 算法··(316)
10.7 離群點分析·······(320)
10.7.1 離群點概述········(320)
10.7.2 常見的離群點檢測方法········(321)
練習題 10 ·······(322)
思考題 10 ·······(323)
第 11 章其他挖掘方法·(324)
11.1 文本挖掘···········(324)
11.1.1 文本挖掘概述····(324)
11.1.2 數據預處理技術(325)
11.1.3 文本結構分析····(327)
11.1.4 文本分類············(328)
11.1.5 文本聚類············(330)
11.1.6 文本摘要············(332)
11.1.7 文本關聯分析····(332)
11.2 Web 挖掘··········(333)
11.2.1 Web 挖掘概述····(333)
11.2.2 Web 結構挖掘····(334)
11.2.3 Web 內容挖掘····(341)
11.2.4 Web 使用挖掘····(341)
11.2.5 Web 挖掘的發展方向···········(343)
11.3 空間數據挖掘···(343)
11.3.1 空間數據概述····(344)
11.3.2 空間數據立方體和空間OLAP··········(345)
11.3.3 空間數據挖掘方法···(346)
練習題 11 ·······(348)
思考題 11 ·······(348)
附錄A 常用的最佳化方法············(350)
參考文獻·····(354)

相關詞條

熱門詞條

聯絡我們