數據挖掘:實用機器學習工具與技術(原書第4版)

數據挖掘:實用機器學習工具與技術(原書第4版)

《數據挖掘:實用機器學習工具與技術(原書第4版)》是2018年3月機械工業出版社出版的圖書,作者是[紐西蘭]伊恩 H.威騰(Ian H.Witten)、埃貝·弗蘭克。

基本介紹

  • 中文名:數據挖掘:實用機器學習工具與技術(原書第4版)
  • 作者:[紐西蘭]伊恩 H.威騰(Ian H.Witten)、埃貝·弗蘭克
  • ISBN:9787111589167
  • 定價:99元
  • 出版社:機械工業出版社
  • 出版時間:2018年3月
  • 開本:16開
內容簡介,圖書目錄,

內容簡介

本書是數據挖掘和機器學習領域的經典暢銷教材,被國內外眾多名校選用。第4版新增了關於深度學習和機率方法的重要章節,同時,備受歡迎的機器學習軟體Weka也再度升級。書中全面覆蓋了該領域的實用技術,致力於幫助讀者理解不同技術的工作方式和套用方式,從而學會在工程實踐和商業項目中解決真實問題。本書適合作為高等院校相關課程的教材,同時也適合業內技術人員閱讀參考。

圖書目錄

譯者序
前言
致謝
第一部分 數據挖掘基礎
第1章 緒論 2
1.1 數據挖掘和機器學習 2
1.1.1 描述結構模式 3
1.1.2 機器學習 5
1.1.3 數據挖掘 6
1.2 簡單的例子:天氣問題和其他問題 6
1.2.1 天氣問題 6
1.2.2 隱形眼鏡:一個理想化的問題 8
1.2.3 鳶尾花:一個經典的數值型數據集 9
1.2.4 CPU性能:引入數值預測 10
1.2.5 勞資協商:一個更真實的例子 11
1.2.6 大豆分類:一個經典的機器學習的成功例子 12
1.3 套用領域 14
1.3.1 Web挖掘 14
1.3.2 包含判斷的決策 15
1.3.3 圖像篩選 15
1.3.4 負載預測 16
1.3.5 診斷 17
1.3.6 市場和銷售 17
1.3.7 其他套用 18
1.4 數據挖掘過程 19
1.5 機器學習和統計學 20
1.6 將泛化看作搜尋 21
1.6.1 枚舉概念空間 22
1.6.2 偏差 22
1.7 數據挖掘和道德問題 24
1.7.1 再識別 24
1.7.2 使用個人信息 25
1.7.3 其他問題 26
1.8 拓展閱讀及參考文獻 26
第2章 輸入:概念、實例和屬性 29
2.1 概念 29
2.2 實例 31
2.2.1 關係 31
2.2.2 其他實例類型 34
2.3 屬性 35
2.4 輸入準備 36
2.4.1 數據收集 37
2.4.2 ARFF格式 37
2.4.3 稀疏數據 39
2.4.4 屬性類型 40
2.4.5 缺失值 41
2.4.6 不正確的值 42
2.4.7 非均衡數據 42
2.4.8 了解數據 43
2.5 拓展閱讀及參考文獻 43
第3章 輸出:知識表達 44
3.1 表 44
3.2 線性模型 44
3.3 樹 46
3.4 規則 49
3.4.1 分類規則 49
3.4.2 關聯規則 52
3.4.3 包含例外的規則 53
3.4.4 表達能力更強的規則 54
3.5 基於實例的表達 56
3.6 聚類 58
3.7 拓展閱讀及參考文獻 59
第4章 算法:基本方法 60
4.1 推斷基本規則 60
4.2 簡單機率模型 63
4.2.1 缺失值和數值屬性 65
4.2.2 用於文檔分類的樸素貝葉斯 67
4.2.3 討論 68
4.3 分治法:創建決策樹 69
4.3.1 計算信息量 71
4.3.2 高度分支屬性 73
4.4 覆蓋算法:建立規則 74
4.4.1 規則與樹 75
4.4.2 一個簡單的覆蓋算法 76
4.4.3 規則與決策列表 79
4.5 關聯規則挖掘 79
4.5.1 項集 80
4.5.2 關聯規則 81
4.5.3 高效地生成規則 84
4.6 線性模型 86
4.6.1 數值預測:線性回歸 86
4.6.2 線性分類:logistic回歸 87
4.6.3 使用感知機的線性分類 89
4.6.4 使用Winnow的線性分類 90
4.7 基於實例的學習 91
4.7.1 距離函式 92
4.7.2 高效尋找最近鄰 92
4.7.3 討論 96
4.8 聚類 96
4.8.1 基於距離的疊代聚類 97
4.8.2 更快的距離計算 98
4.8.3 選擇簇的個數 99
4.8.4 層次聚類 100
4.8.5 層次聚類示例 101
4.8.6 增量聚類 102
4.8.7 分類效用 104
4.8.8 討論 106
4.9 多實例學習 107
4.9.1 聚集輸入 107
4.9.2 聚集輸出 107
4.10 拓展閱讀及參考文獻 108
4.11 Weka實現 109
第5章 可信度:評估學習結果 111
5.1 訓練和測試 111
5.2 預測性能 113
5.3 交叉驗證 115
5.4 其他評估方法 116
5.4.1 留一交叉驗證法 116
5.4.2 自助法 116
5.5 超參數選擇 117
5.6 數據挖掘方法比較 118
5.7 預測機率 121
5.7.1 二次損失函式 121
5.7.2 信息損失函式 122
5.7.3 討論 123
5.8 計算成本 123
5.8.1 成本敏感分類 125
5.8.2 成本敏感學習 126
5.8.3 提升圖 126
5.8.4 ROC曲線 129
5.8.5 召回率–精確率曲線 130
5.8.6 討論 131
5.8.7 成本曲線 132
5.9 評估數值預測 134
5.10 最小描述長度原理 136
5.11 將MDL原理套用於聚類 138
5.12 使用驗證集進行模型選擇 138
5.13 拓展閱讀及參考文獻 139
第二部分 高級機器學習方案
第6章 樹和規則 144
6.1 決策樹 144
6.1.1 數值屬性 144
6.1.2 缺失值 145
6.1.3 剪枝 146
6.1.4 估計誤差率 147
6.1.5 決策樹歸納法的複雜度 149
6.1.6 從決策樹到規則 150
6.1.7 C4.5:選擇和選項 150
6.1.8 成本–複雜度剪枝 151
6.1.9 討論 151
6.2 分類規則 152
6.2.1 選擇測試的標準 152
6.2.2 缺失值和數值屬性 153
6.2.3 生成好的規則 153
6.2.4 使用全局最佳化 155
6.2.5 從局部決策樹中獲得規則 157
6.2.6 包含例外的規則 158
6.2.7 討論 160
6.3 關聯規則 161
6.3.1 建立頻繁模式樹 161
6.3.2 尋找大項集 163
6.3.3 討論 166
6.4 Weka 實現 167
第7章 基於實例的學習和線性模型的擴展 168
7.1 基於實例的學習 168
7.1.1 減少樣本集的數量 168
7.1.2 對噪聲樣本集剪枝 169
7.1.3 屬性加權 170
7.1.4 泛化樣本集 170
7.1.5 用於泛化樣本集的距離函式 171
7.1.6 泛化的距離函式 172
7.1.7 討論 172
7.2 擴展線性模型 173
7.2.1 最大間隔超平面 173
7.2.2 非線性類邊界 174
7.2.3 支持向量回歸 176
7.2.4 核嶺回歸 177
7.2.5 核感知機 178
7.2.6 多層感知機 179
7.2.7 徑向基函式網路 184
7.2.8 隨機梯度下降 185
7.2.9 討論 186
7.3 局部線性模型用於數值預測 187
7.3.1 模型樹 187
7.3.2 構建樹 188
7.3.3 對樹剪枝 188
7.3.4 名目屬性 189
7.3.5 缺失值 189
7.3.6 模型樹歸納的偽代碼 190
7.3.7 從模型樹到規則 192
7.3.8 局部加權線性回歸 192
7.3.9 討論 193
7.4 Weka實現 194
第8章 數據轉換 195
8.1 屬性選擇 196
8.1.1 獨立於方案的選擇 197
8.1.2 搜尋屬性空間 199
8.1.3 具體方案相關的選擇 200
8.2 離散化數值屬性 201
8.2.1 無監督離散化 202
8.2.2 基於熵的離散化 203
8.2.3 其他離散化方法 205
8.2.4 基於熵和基於誤差的離散化 205
8.2.5 將離散屬性轉換成數值屬性 206
8.3 投影 207
8.3.1 主成分分析 207
8.3.2 隨機投影 209
8.3.3 偏最小二乘回歸 209
8.3.4 獨立成分分析 210
8.3.5 線性判別分析 211
8.3.6 二次判別分析 211
8.3.7 Fisher線性判別分析 211
8.3.8 從文本到屬性向量 212
8.3.9 時間序列 213
8.4 抽樣 214
8.5 數據清洗 215
8.5.1 改進決策樹 215
8.5.2 穩健回歸 215
8.5.3 檢測異常 216
8.5.4 一分類學習 217
8.5.5 離群點檢測 217
8.5.6 生成人工數據 218
8.6 將多分類問題轉換成二分類問題 219
8.6.1 簡單方法 219
8.6.2 誤差校正輸出編碼 220
8.6.3 集成嵌套二分法 221
8.7 校準類機率 223
8.8 拓展閱讀及參考文獻 224
8.9 Weka實現 226
第9章 機率方法 228
9.1 基礎 228
9.1.1 最大似然估計 229
9.1.2 最大後驗參數估計 230
9.2 貝葉斯網路 230
9.2.1 預測 231
9.2.2 學習貝葉斯網路 233
9.2.3 具體算法 235
9.2.4 用於快速學習的數據結構 237
9.3 聚類和機率密度估計 239
9.3.1 用於高斯混合模型的期望最大化算法 239
9.3.2 擴展混合模型 242
9.3.3 使用先驗分布聚類 243
9.3.4 相關屬性聚類 244
9.3.5 核密度估計 245
9.3.6 比較用於分類的參數、半參數和無參數的密度模型 245
9.4 隱藏變數模型 246
9.4.1 對數似然和梯度的期望 246
9.4.2 期望最大化算法 247
9.4.3 將期望最大化算法套用於貝葉斯網路 248
9.5 貝葉斯估計與預測 249
9.6 圖模型和因子圖 251
9.6.1 圖模型和盤子表示法 251
9.6.2 機率主成分分析 252
9.6.3 隱含語義分析 254
9.6.4 使用主成分分析來降維 255
9.6.5 機率LSA 256
9.6.6 隱含狄利克雷分布 257
9.6.7 因子圖 258
9.6.8 馬爾可夫隨機場 260
9.6.9 使用sum-product算法和max-product算法進行計算 261
9.7 條件機率模型 265
9.7.1 機率模型的線性和多項式回歸 265
9.7.2 使用先驗參數 266
9.7.3 多分類logistic回歸 268
9.7.4 梯度下降和二階方法 271
9.7.5 廣義線性模型 271
9.7.6 有序類的預測 272
9.7.7 使用核函式的條件機率模型 273
9.8 時序模型 273
9.8.1 馬爾可夫模型和N元法 273
9.8.2 隱馬爾可夫模型 274
9.8.3 條件隨機場 275
9.9 拓展閱讀及參考文獻 278
9.10 Weka實現 282
第10章 深度學習 283
10.1 深度前饋網路 284
10.1.1 MNIST評估 284
10.1.2 損失和正則化 285
10.1.3 深層網路體系結構 286
10.1.4 激活函式 287
10.1.5 重新審視反向傳播 288
10.1.6 計算圖以及複雜的網路結構 290
10.1.7 驗證反向傳播算法的實現 291
10.2 訓練和評估深度網路 292
10.2.1 早停 292
10.2.2 驗證、交叉驗證以及超參數調整 292
10.2.3 小批量隨機梯度下降 293
10.2.4 小批量隨機梯度下降的偽代碼 294
10.2.5 學習率和計畫 294
10.2.6 先驗參數的正則化 295
10.2.7 丟棄法 295
10.2.8 批規範化 295
10.2.9 參數初始化 295
10.2.10 無監督的預訓練 296
10.2.11 數據擴充和合成轉換 296
10.3 卷積神經網路 296
10.3.1 ImageNet評估和深度卷積神經網路 297
10.3.2 從圖像濾波到可學習的卷積層 297
10.3.3 卷積層和梯度 300
10.3.4 池化層二次抽樣層以及梯度 300
10.3.5 實現 301
10.4 自編碼器 301
10.4.1 使用RBM預訓練深度自編碼器 302
10.4.2 降噪自編碼器和分層訓練 304
10.4.3 重構和判別式學習的結合 304
10.5 隨機深度網路 304
10.5.1 玻爾茲曼機 304
10.5.2 受限玻爾茲曼機 306
10.5.3 對比分歧 306
10.5.4 分類變數和連續變數 306
10.5.5 深度玻爾茲曼機 307
10.5.6 深度信念網路 308
10.6 遞歸神經網路 309
10.6.1 梯度爆炸與梯度消失 310
10.6.2 其他遞歸網路結構 311
10.7 拓展閱讀及參考文獻 312
10.8 深度學習軟體以及網路實現 315
10.8.1 Theano 315
10.8.2 Tensor Flow 315
10.8.3 Torch 315
10.8.4 CNTK 315
10.8.5 Caffe 315
10.8.6 DeepLearning4j 316
10.8.7 其他包:Lasagne、Keras以及cuDNN 316
10.9 Weka實現 316
第11章 有監督和無監督學習 317
11.1 半監督學習 317
11.1.1 用以分類的聚類 317
11.1.2 協同訓練 318
11.1.3 EM和協同訓練 319
11.1.4 神經網路方法 319
11.2 多實例學習 320
11.2.1 轉換為單實例學習 320
11.2.2 升級學習算法 321
11.2.3 專用多實例方法 322
11.3 拓展閱讀及參考文獻 323
11.4 Weka實現 323
第12章 集成學習 325
12.1 組合多種模型 325
12.2 裝袋 326
12.2.1 偏差–方差分解 326
12.2.2 考慮成本的裝袋 327
12.3 隨機化 328
12.3.1 隨機化與裝袋 328
12.3.2 旋轉森林 329
12.4 提升 329
12.4.1 AdaBoost算法 330
12.4.2 提升算法的威力 331
12.5 累加回歸 332
12.5.1 數值預測 332
12.5.2 累加logistic回歸 333
12.6 可解釋的集成器 334
12.6.1 選擇樹 334
12.6.2 logistic模型樹 336
12.7 堆疊 336
12.8 拓展閱讀及參考文獻 338
12.9 Weka實現 339
第13章 擴展和套用 340
13.1 套用機器學習 340
13.2 從大型的數據集學習 342
13.3 數據流學習 344
13.4 融合領域知識 346
13.5 文本挖掘 347
13.5.1 文檔分類與聚類 348
13.5.2 信息提取 349
13.5.3 自然語言處理 350
13.6 Web挖掘 350
13.6.1 包裝器歸納 351
13.6.2 網頁分級 351
13.7 圖像和語音 353
13.7.1 圖像 353
13.7.2 語音 354
13.8 對抗情形 354
13.9 無處不在的數據挖掘 355
13.10 拓展閱讀及參考文獻 357
13.11 Weka實現 359
附錄A 理論基礎 360
附錄B Weka工作平台 375
索引 388
參考文獻

相關詞條

熱門詞條

聯絡我們