《數據挖掘概念與技術——第二版》是2006年機械工業出版社出版的圖書,作者是韓家煒。
基本介紹
- 書名:數據挖掘:概念與技術——第二版
- 作者:(加)韓家煒
- ISBN:9787111188285 [十位:7111188284]
- 頁數:770
- 定價:¥79.00
- 出版社:機械工業出版社
- 出版時間:2006年04月
- 重約:1.050KG
內容提要,圖書目錄,作者介紹,編輯推薦,作者簡介,
內容提要
《數據挖掘:概念與技術》(英文版第2版)笫2版最完整、最全面地講述了數據挖掘領域的重要知識和技術創新。相比內容已經相當全面的第1版,第2版展示了該領域的最新研究成果,例如挖掘流、時序數據和序列數據以及挖掘空間、多媒體、文本和IWeb數據。《數據挖掘:概念與技術》(英文版第2版)是數據挖掘和知識發現領域內所有教師、研究人員、開發人員和用戶部必讀的書。我們產生和收集數據的能力正在快速增長。除了大多數商業、科學和政府事務的日益計算機化會產生數據之外,數位相機、發布工具和條碼的廣泛套用也會產生數據。在數據收集方面,掃描的文體和圖像平台、衛星遙感系統和國際網際網路已經使我們的生活被巨大的數據量所包圍。這種爆炸性的數據增長促使我們比以往更迫切地需要新技術和自動化工具來幫助我們將這些數據轉換為有用的信息和知識。
第1版曾被KDnuggets的讀者評選為最受歡迎的數據挖掘專著,是一本可讀性極佳的教材。它從資料庫角度全面系統地介紹了數據挖掘的基本概念、基本方法和基本技術以及數據挖掘的技術研究進展,重點關注其可行性、有用性、有效性和可伸縮性問題。但是,自第1版出版之後,數據挖掘領域的研究又取得了很大的進展,開發出了新的數據挖掘方法、系統和套用。第2版在這一方面進行了加強,增加了多個章節講述最新的數據挖掘方法,以便能夠挖掘出複雜類型的數據,包括流數據、序列數據、圖結構數據、社群網路數據和多重關係數據。
第1版曾被KDnuggets的讀者評選為最受歡迎的數據挖掘專著,是一本可讀性極佳的教材。它從資料庫角度全面系統地介紹了數據挖掘的基本概念、基本方法和基本技術以及數據挖掘的技術研究進展,重點關注其可行性、有用性、有效性和可伸縮性問題。但是,自第1版出版之後,數據挖掘領域的研究又取得了很大的進展,開發出了新的數據挖掘方法、系統和套用。第2版在這一方面進行了加強,增加了多個章節講述最新的數據挖掘方法,以便能夠挖掘出複雜類型的數據,包括流數據、序列數據、圖結構數據、社群網路數據和多重關係數據。
圖書目錄
Foreword vii
Preface ix
Chapter Introduction I
1.1 What Motivated Data Mining? Why Is It Important? 1
1.2 So, What Is Data Mining? 5
1.3 Data Mining-On What Kind of Data? 9
1.3.1 Relational Databases 10
1.3.2 Data Warehouses 12
1.3.3 TransactionalDatabases 14
1.3.4 Advanced Data and Information Systems and Advanced Applications 15
1.4 Data Mining Functionalities——-What Kinds of Patterns Can Be Mined? 21
1.4.1 Concept/Class Description: Characterization and Discrimination 21
1.4.2 Mining Frequent Patterns, Associations, and Correlations 23
1.4.3 Classification and Prediction 24
1.4.4 Cluster Analysis 25
1.4.5 Outlier Analysis 26
1.4.6 Evolution Analysis 27
1.5 Are All of the Patterns Interesting? 27
1.6 Classification of Data Mining Systems 29
1.7 Data Mining Task Primitives 3 I
1.8 Integration of a Data Mining System with a Database or Data Warehouse System 34
1.9 Major Issues in Data Mining 36
1.10 Summary 39
Exercises 40
Bibliographic Notes 42
Chapter Data Preprocessing 47
2.1 Why Preprocess the Data? 48
2.2 Descriptive Data Summarization 51
2.2.1 Measuring the Central Tendency 5 I
2.2.2 Measuring the Dispersion of Data 53
2.2.3 Graphic Displays of Basic Descriptive Data Summaries 56
2.3 Data Cleaning 61
2.3.1 Missing Values 61
2.3.2 Noisy Data 62
2.3.3 Data Cleaning as a Process 65
2.4 Data Integration and Transformation 67
2.4.1 Data Integration 67
2.4.2 Data Transformation 70
2.5 Data Reduction 72
2.5.1 Data Cube Aggregation 73
2.5.2 Attribute Subset Selection 75
2,5.3 DimensionalityReduction 77
2.5.4 Numerosity Reduction 80
2.6 Data Discretization and Concept Hierarchy Generation 86
2.6.1 Discretization and Concept Hierarchy Generation for Numerical Data 88
2.6.2 Concept Hierarchy Generation for Categorical Data 94
2.7 Summary 97
Exercises 97
Bibliographic Notes 101
Chapter 3 Data Warehouse and OLAP Technology: An Overview 105
3.1 What Is a Data Warehouse? 105
3. I.I Differences between Operational Database Systems and Data Warehouses 108
3.1.2 But, Why Have a Separate Data Warehouse? 109
3.2 A Multidimensional Data Model 110
3.2.1 From Tables and Spreadsheets to Data Cubes 110
3.2.2 Stars, Snowflakes, and Fact Constellations: Schemas for Multidimensional Databases 114
3.2.3 Examples for Defining Star, Snowflake, and Fact Constellation Schemas 117
……
Preface ix
Chapter Introduction I
1.1 What Motivated Data Mining? Why Is It Important? 1
1.2 So, What Is Data Mining? 5
1.3 Data Mining-On What Kind of Data? 9
1.3.1 Relational Databases 10
1.3.2 Data Warehouses 12
1.3.3 TransactionalDatabases 14
1.3.4 Advanced Data and Information Systems and Advanced Applications 15
1.4 Data Mining Functionalities——-What Kinds of Patterns Can Be Mined? 21
1.4.1 Concept/Class Description: Characterization and Discrimination 21
1.4.2 Mining Frequent Patterns, Associations, and Correlations 23
1.4.3 Classification and Prediction 24
1.4.4 Cluster Analysis 25
1.4.5 Outlier Analysis 26
1.4.6 Evolution Analysis 27
1.5 Are All of the Patterns Interesting? 27
1.6 Classification of Data Mining Systems 29
1.7 Data Mining Task Primitives 3 I
1.8 Integration of a Data Mining System with a Database or Data Warehouse System 34
1.9 Major Issues in Data Mining 36
1.10 Summary 39
Exercises 40
Bibliographic Notes 42
Chapter Data Preprocessing 47
2.1 Why Preprocess the Data? 48
2.2 Descriptive Data Summarization 51
2.2.1 Measuring the Central Tendency 5 I
2.2.2 Measuring the Dispersion of Data 53
2.2.3 Graphic Displays of Basic Descriptive Data Summaries 56
2.3 Data Cleaning 61
2.3.1 Missing Values 61
2.3.2 Noisy Data 62
2.3.3 Data Cleaning as a Process 65
2.4 Data Integration and Transformation 67
2.4.1 Data Integration 67
2.4.2 Data Transformation 70
2.5 Data Reduction 72
2.5.1 Data Cube Aggregation 73
2.5.2 Attribute Subset Selection 75
2,5.3 DimensionalityReduction 77
2.5.4 Numerosity Reduction 80
2.6 Data Discretization and Concept Hierarchy Generation 86
2.6.1 Discretization and Concept Hierarchy Generation for Numerical Data 88
2.6.2 Concept Hierarchy Generation for Categorical Data 94
2.7 Summary 97
Exercises 97
Bibliographic Notes 101
Chapter 3 Data Warehouse and OLAP Technology: An Overview 105
3.1 What Is a Data Warehouse? 105
3. I.I Differences between Operational Database Systems and Data Warehouses 108
3.1.2 But, Why Have a Separate Data Warehouse? 109
3.2 A Multidimensional Data Model 110
3.2.1 From Tables and Spreadsheets to Data Cubes 110
3.2.2 Stars, Snowflakes, and Fact Constellations: Schemas for Multidimensional Databases 114
3.2.3 Examples for Defining Star, Snowflake, and Fact Constellation Schemas 117
……
作者介紹
編輯推薦
《數據挖掘:概念與技術》(英文版第2版)適合作為高等院校計算及相關專業高年級本科生的選修課教材,特別適合作為研究生的專業課教材,同時也可供從事數數據挖掘研究和套用開發工作的相關人員作為必備的參考書。
《數據挖掘:概念與技術》(英文版第2版)主要特點是:全面實用地論述了從實際業務數據中抽取出的讀者需要知道的概念和技術。更新並結合了來自讀者的反饋、數據挖掘領域的技術變化以及統計和機器學習方面的更多資料。包含了許多算法和實際示例,全部以易於理解的偽代碼編寫,適用於實際的大規模數據挖掘項目。
《數據挖掘:概念與技術》(英文版第2版)主要特點是:全面實用地論述了從實際業務數據中抽取出的讀者需要知道的概念和技術。更新並結合了來自讀者的反饋、數據挖掘領域的技術變化以及統計和機器學習方面的更多資料。包含了許多算法和實際示例,全部以易於理解的偽代碼編寫,適用於實際的大規模數據挖掘項目。
作者簡介
作者:(加)韓家煒
Jiawei Han伊利諾伊大學厄巴納一尚佩恩分校計算機科學系教授。由於在數據挖掘和資料庫系統領域卓有成效的研究工作,他曾多次獲得各種榮譽和獎勵,其中包括2004年ACM SIGKDD頒發的創新獎。同時,他還是《ACM Trarlsactiorls on Krlowledge Discovery fronl Data》雜誌的主編,以及《IEEE Trarlsactiorls 0n Krlowledge and Data Engirleering》和《Data Mirling and Krlowledge Discovery》雜誌的編委會成員。
Micheline Kamber擁有加拿大康考迪亞大學計算機科學碩士學位,現在加拿大西蒙·弗雷澤大學從事博士後研究工作。
Jiawei Han伊利諾伊大學厄巴納一尚佩恩分校計算機科學系教授。由於在數據挖掘和資料庫系統領域卓有成效的研究工作,他曾多次獲得各種榮譽和獎勵,其中包括2004年ACM SIGKDD頒發的創新獎。同時,他還是《ACM Trarlsactiorls on Krlowledge Discovery fronl Data》雜誌的主編,以及《IEEE Trarlsactiorls 0n Krlowledge and Data Engirleering》和《Data Mirling and Krlowledge Discovery》雜誌的編委會成員。
Micheline Kamber擁有加拿大康考迪亞大學計算機科學碩士學位,現在加拿大西蒙·弗雷澤大學從事博士後研究工作。