數據挖掘(2023年清華大學出版社出版的圖書)

數據挖掘(2023年清華大學出版社出版的圖書)

本詞條是多義詞,共6個義項
更多義項 ▼ 收起列表 ▲

《數據挖掘》是2023年清華大學出版社出版的圖書,作者是蔡毅、黃清寶、許可、王國華、伍慰珍。

基本介紹

  • 中文名:數據挖掘
  • 作者:蔡毅、黃清寶、許可、王國華、伍慰珍
  • 出版時間:2023年10月1日
  • 出版社:清華大學出版社
  • ISBN:9787302634256 
  • 定價:44.50 元
內容簡介,圖書目錄,

內容簡介

近年來,數據挖掘(Data Mining)引起了產業界的極大關注,主要原因是生產製造等環節中存在海 量有潛在價值的數據,而各行各業都迫切需要將這些數據轉換成有用的信息和知識。這些信息和知識可 以廣泛用於各種領域,包括商務管理、生產控制、市場分析、工程設計等,幫助企業創造更高的利潤和 占據新的制高點。

圖書目錄

目錄
第1章 緒論 1
1.1 數據挖掘概述 1
1.2 數據挖掘的定義 1
1.2.1 數據挖掘的一般步驟 2
1.2.2 數據挖掘任務 2
1.3 數據挖掘的主要問題 3
1.3.1 數據挖掘算法的有效性和可擴展性 3
1.3.2 處理噪聲和不完全數據 3
1.3.3 高維度數據 3
1.3.4 關係資料庫和複雜數據類型的處理 4
1.3.5 異種資料庫和全球信息系統挖掘信息 4
1.4 數據挖掘的套用 4
1.4.1 推薦系統 4
1.4.2 網際網路風險控制 5
1.5 小結 5
1.6 參考文獻 5
第2章 數據及數據集基本分析 6
2.1 數據對象與屬性 6
2.1.1 屬性的定義 7
2.1.2 定性屬性 7
2.1.3 定量屬性 8
2.2 數據與元數據 9
2.2.1 傳統的元數據 9
2.2.2 元數據的類型 10
2.2.3 元數據的模式 10
2.3 結構化、非結構化和半結構化數據 11
2.3.1 結構化數據 11
2.3.2 非結構化數據 12
2.3.3 半結構化數據 13
2.4 數據集基本分析技術 14
2.4.1 頻率和眾數 15
2.4.2 百分位數 15
2.4.3 均值和中位數 16
2.4.4 極差和方差 16
2.4.5 多元數據統計 17
2.5 結構化數據集基本分析技術 17
2.5.1 鳶尾花數據集介紹 17
2.5.2 描述統計 18
2.6 文本數據集基本分析技術 19
2.6.1 20newsgroups數據集介紹 19
2.6.2 文本可視化 22
2.7 數據可視化技術 23
2.7.1 可視化數據變數之間的相關性 24
2.7.2 可視化數據變數值的分布情況 26
2.8 數據對象相似性與距離計算 30
2.8.1 數據對象的相似性定義 30
2.8.2 數據對象相似性的度量方法 30
2.9 大數據概述 31
2.9.1 大數據的興起 31
2.9.2 大數據的特點 32
2.10 小結 32
2.11 練習題 32
2.12 參考文獻 33
第3章 數據預處理 34
3.1 數據預處理概述 34
3.2 數據清洗 35
3.2.1 缺失值處理 35
3.2.2 異常點檢測 36
3.2.3 異常點處理 37
3.2.4 重複數據處理 37
3.2.5 噪聲處理 38
3.3 數據降維 39
3.3.1 數據降維概述 39
3.3.2 主成分分析降維 39
3.3.3 多維縮放降維 41
3.3.4 等度量映射降維 43
3.3.5 局部線性嵌入降維 45
3.3.6 降維效果比較 47
3.4 結構化數據預處理技術 50
3.4.1 數據清洗 50
3.4.2 分組與聚合 53
3.4.3 合併 54
3.4.4 案例------房價預測競賽 55
3.5 文本數據預處理技術 58
3.5.1 文本數據預處理技術概述 58
3.5.2 文本數據獲取 58
3.5.3 分詞 59
3.5.4 數據清洗 59
3.5.5 詞幹提取 62
3.5.6 詞形還原 63
3.5.7 案例------新聞數據預處理 63
3.6 隱私保護與數據脫敏 67
3.6.1 隱私保護與數據脫敏概述 67
3.6.2 隱私保護與數據脫敏定義 67
3.6.3 敏感信息識別 67
3.6.4 敏感信息去除 69
3.7 小結 70
3.8 練習題 71
3.9 參考文獻 71
第4章 分類基本算法 72
4.1 分類概述 72
4.1.1 分類任務簡介 72
4.1.2 二分類及多分類 73
4.1.3 不均衡問題 73
4.2 k近鄰算法 74
4.2.1 算法 74
4.2.2 距離度量 74
4.2.3 k值的選擇 75
4.2.4 分類決策規則 75
4.2.5 參數說明 75
4.3 決策樹 76
4.3.1 決策樹簡介 76
4.3.2 決策樹算法 77
4.3.3 信息增益 77
4.3.4 增益率 77
4.4 支持向量機 79
4.4.1 線性可分支持向量機 80
4.4.2 線性支持向量機 82
4.4.3 非線性支持向量機 82
4.4.4 參數說明 83
4.5 隨機森林 84
4.5.1 隨機森林簡介 84
4.5.2 隨機森林算法 85
4.5.3 參數說明 85
4.6 AdaBoost 86
4.6.1 AdaBoost簡介 86
4.6.2 AdaBoost算法 86
4.6.3 參數說明 88
4.7 樸素貝葉斯 88
4.7.1 樸素貝葉斯基本方法 88
4.7.2 樸素貝葉斯算法 89
4.7.3 參數說明 90
4.8 特徵權重函式 91
4.8.1 無監督特徵權重函式 91
4.8.2 有監督特徵權重函式 92
4.9 結構化數據分類案例 93
4.9.1 鳶尾花數據集 93
4.9.2 評估方式 94
4.9.3 KNN實例 94
4.9.4 SVM實例 94
4.9.5 決策樹實例 95
4.9.6 隨機森林實例 95
4.9.7 AdaBoost實例 96
4.9.8 樸素貝葉斯分類器實例 96
4.10 文本分類實例 96
4.10.1 文本表示 96
4.10.2 分類模型的訓練 99
4.11 小結 108
4.12 練習題 108
4.13 參考文獻 108
第5章 基於深度學習的分類算法 110
5.1 深度學習概述 110
5.1.1 深度學習的發展歷程 110
5.1.2 深度學習的概念 111
5.1.3 深度學習的套用 111
5.1.4 深度學習的未來 112
5.2 卷積神經網路 113
5.2.1 卷積神經網路簡介 113
5.2.2 卷積運算 114
5.2.3 非線性激活函式 115
5.2.4 最大池化運算 115
5.3 循環神經網路 116
5.3.1 循環神經網路簡介 116
5.3.2 循環神經網路的結構類型 119
5.4 長短期記憶網路 121
5.5 圖像分類案例 123
5.5.1 數據集下載與預處理 123
5.5.2 模型架構搭建 126
5.5.3 模型的訓練與驗證 128
5.5.4 使用數據增強策略 129
5.5.5 隨機失活策略 130
5.5.6 使用預訓練模型提升結果 131
5.6 結構化數據分類案例 134
5.6.1 數據分析和可視化 134
5.6.2 模型架構搭建 136
5.6.3 模型訓練和預測 137
5.7 文本分類案例 137
5.7.1 數據預處理 137
5.7.2 模型架構搭建 139
5.7.3 模型訓練與預測 139
5.8 小結 140
5.9 練習題 140
5.10 參考文獻 140
第6章 聚類分析 142
6.1 聚類概述 142
6.2 劃分聚類 143
6.2.1 K均值 143
6.2.2 K均值算法的實現 144
6.2.3 二分K均值 145
6.2.4 二分K均值算法實現 146
6.2.5 劃分聚類的優點與缺點 148
6.3 層次聚類 149
6.3.1 簇的鄰近性度量 149
6.3.2 AGNES算法 150
6.3.3 層次聚類的優點與缺點 153
6.4 基於密度的聚類 153
6.4.1 DBSCAN 153
6.4.2 算法實現 155
6.4.3 參數的選取 156
6.4.4 密度聚類的優點與缺點 157
6.5 主題模型 157
6.5.1 LDA 模型 158
6.5.2 LDA參數估計 159
6.5.3 LDA的優點與缺點 159
6.6 結構化數據聚類案例 161
6.6.1 數據集 161
6.6.2 評價指標 161
6.6.3 聚類及評估 162
6.7 文本聚類案例 166
6.7.1 數據集 166
6.7.2 數據預處理 166
6.7.3 LDA的訓練和評估 168
6.7.4 LDA 結果的可視化 170
6.8 聚類分析的相關工作 171
6.9 小結 172
6.10 練習題 172
6.11 參考文獻 172
第7章 推薦系統 175
7.1 推薦系統概述 175
7.1.1 推薦系統的發展 175
7.1.2 推薦系統的套用場景 178
7.1.3 推薦系統評測指標 178
7.1.4 推薦系統存在的問題 182
7.2 個性化建模方法 184
7.2.1 基於向量空間模型的表示法 184
7.2.2 基於主題的表示法 184
7.2.3 基於用戶--物品評分矩陣的表示法 185
7.2.4 基於神經網路的表示法 185
7.3 基於內容的推薦 185
7.3.1 基於內容的推薦簡介 185
7.3.2 基於內容的推薦算法 186
7.3.3 基於內容的推薦的優點和缺點 188
7.4 基於協同過濾的推薦 189
7.4.1 協同過濾簡介 189
7.4.2 用戶行為數據介紹 189
7.4.3 基於用戶的協同過濾 191
7.4.4 基於物品的協同過濾 193
7.4.5 矩陣分解 197
7.4.6 負樣本的採樣 201
7.5 混合推薦 202
7.5.1 混合推薦簡介 202
7.5.2 結合不同的推薦系統 202
7.5.3 在協同過濾中添加基於內容的特徵 203
7.5.4 在基於內容的推薦中加入協同過濾的特徵 203
7.5.5 構建一個統一推薦模型 203
7.5.6 混合推薦的優點和缺點 203
7.6 基於主題的推薦 204
7.6.1 為什麼需要用到主題模型 204
7.6.2 LDA主題模型概述 204
7.6.3 使用主題模型計算相似物品 205
7.6.4 使用主題模型計算相似用戶 206
7.7 基於深度學習的推薦算法 206
7.8 推薦算法案例 208
7.8.1 數據的讀取與分析 208
7.8.2 推薦算法的套用 213
7.9 小結 220
7.10 練習題 220
7.11 參考文獻 221

相關詞條

熱門詞條

聯絡我們