基於Python的無監督學習

基於Python的無監督學習是一本2021年出版的圖書,由中國電力出版社出版

基本介紹

  • 中文名:基於Python的無監督學習
  • 作者:安庫·A·帕特
  • 出版時間:2021年
  • 出版社中國電力出版社
  • ISBN:9787519849498
內容簡介,圖書目錄,

內容簡介

本書主要內容有:比較不同機器學習方法的優缺點、監督學習、無監督學習和強化學習。從頭到尾的建立和管理機器學習項目。建立一個異常檢測系統,以捕捉信用卡交易的欺詐。將用戶集群到不同的同構組中。執行半監督學習。使用受限制玻爾茲曼機開發電影推薦系統。使用生成對抗網路生成合成圖像。

圖書目錄

目錄
前言 1
第一部分 無監督學習基礎
第1 章 機器學習生態系統中的無監督學習 15
機器學習基本術語 15
基於規則(Rules-Based) 與機器學習 17
監督學習與無監督學習 17
監督學習的優缺點 18
無監督學習的優缺點 19
使用無監督學習改進機器學習的解決方案 20
了解監督學習算法 23
線性算法 25
基於鄰域的算法 26
基於樹的算法 28
支持向量機 29
神經網路 30
了解無監督學習算法 30
降維 30
聚類 33
特徵提取 35
無監督深度學習 36
使用無監督學習解決序列數據問題 38
利用無監督學習的強化學習 39
半監督學習 40
無監督學習的成功套用 40
結論 42
第2 章 完整機器學習項目 43
環境設定 43
版本控制:Git 43
克隆本書的Git 存儲庫 44
科學庫:Anaconda 發行版Python 44
神經網路:TensorFlow 和Keras 45
梯度提升算法,版本1: XGBoost 45
梯度提升算法,版本2:LightGBM 46
聚類算法 46
互動式計算環境:Jupyter Notebook 47
數據概述 47
數據準備 48
數據採集 48
數據研究 50
生成特徵矩陣和標籤數組 53
特徵工程與特徵選擇 54
數據可視化(Data Visualization) 55
模型準備 56
分離出訓練和測試數據集 56
選擇成本函式 57
創建k 折交叉驗證集 58
機器學習模型(第一部分) 58
評估指標 62
混淆矩陣(Confusion Matrix) 62
精確率召回率曲線(Precision-Recall Curve) 63
觀察者操作特徵曲線(receiver operating characteristic) 65
機器學習模型(第二部分) 68
模型2:隨機森林(Random Forests) 68
模型3:XGBoost 梯度提升機(gradient boosting machine) 71
模型4:LightGBM 梯度提升機 74
使用測試集對四個模型評估 77
集成(Ensembles) 82
最終算法選擇 86
完整生產系統 87
結論 87
第二部分 使用SciKit-Learn 進行無監督學習
第3 章 降維 91
降維的動因 91
降維算法 96
主成分分析(principal component analysis,PCA) 97
PCA 概念 97
PCA 練習 98
增量PCA 103
稀疏PCA 104
核PCA 105
奇異值分解 107
隨機投影 108
等距映射 111
多維標度法 112
局部線性嵌入 113
t- 分布隨機鄰域嵌入 114
其他降維方法 115
字典學習 116
獨立成分分析 118
結論 119
第4 章 異常檢測 120
信用卡欺詐檢測 121
準備數據 121
定義異常評分函式 121
定義評估指標 123
定義繪圖函式 124
普通PCA 異常檢測 124
PCA 成分數量等於原始特徵的數量 125
尋找最優主成分數 128
稀疏PCA 異常檢測 130
核PCA 異常檢測 132
高斯隨機投影異常檢測 135
稀疏隨機投影異常檢測 137
非線性異常檢測 138
字典學習異常檢測 139
ICA 異常檢測 141
在測試數據集上運行欺詐檢測解決方案 143
測試數據集上的普通PCA 異常檢測 143
測試集上的ICA 異常檢測 145
測試集上使用字典學習異常檢測 146
結論 148
第5 章 聚類 149
MNIST 數字集 150
聚類算法 151
k 均值 152
k 均值慣性 153
評估聚類結果 154
k 均值精度 156
k 均值和主成分的數量 158
原始數據集上的k 均值 159
層次聚類 161
層次聚類方法 162
樹狀圖 163
評估聚類結果 165
密度聚類(DBSCAN) 168
DBSCAN 算法 168
HDBSCAN 170
結論 172
第6 章 分組分割 173
借貸俱樂部數據 173
數據準備 174
將字元串格式轉換為數字格式 176
輸入缺失值 176
特徵工程 179
選擇最終特徵集並執行縮放 179
指定用來評估的標籤 179
聚類的好處 181
k 均值套用 183
分層聚類套用 186
HDBSCAN 應用程式 190
結論 192
第三部分 使用TensorFlow 和Keras
無監督學習
第7 章 自動編碼器 195
神經網路 196
TensorFlow 198
Keras 199
自動編碼器:編碼器和解碼器 199
欠完備自動編碼器 200
過完備自動編碼器 201
密集與稀疏自動編碼器 202
降噪自動編碼器 202
變分自動編碼器 203
結論 204
第8 章 自動編碼器實踐 205
數據準備 205
自動編碼器的組成部分 208
激活函式 209
我們的第一台自動編碼器 210
損失函式 211
最佳化器 211
訓練模型 212
對測試集進行評估 214
具有線性激活函式的兩層欠完備自動編碼器 216
增加節點數 220
添加更多隱藏層 222
非線性自動編碼器 223
具有線性激活的過完備自動編碼器 226
具有線性激活、隨機失活的過完備自動編碼器 228
具有稀疏、線性激活、隨機失活的過完備自動編碼器 231
具有稀疏、線性激活、隨機失活功能的過完備自動編碼器 234
使用噪聲數據集 236
降噪自動編碼器 236
二層、降噪、具備線性激活的欠完備自動編碼器 237
兩層、降噪、具備線性激活的過完備自動編碼器 240
兩層、降噪、ReLu 激活的過完備自動編碼器 242
結論 244
第9 章 半監督學習 246
數據準備 246
監督模型 250
無監督模型 252
半監督模型 254
監督和無監督的合力 257
結論 258
第四部分 使用TensorFlow 和Keras
進行深度無監督學習
第10 章 使用受限玻爾茲曼機器的推薦系統 261
玻爾茲曼機器 262
推薦系統 263
協同過濾 263
Netflix 獎 264
MovieLens 數據集 264
數據準備 265
定義成本函式:均方誤差 269
進行基線實驗 270
矩陣分解 271
一個潛在因子 272
三個潛在因子 273
五個潛在因子 274
使用RBM 的協同過濾 274
RBM 神經網路結構 275
構建RBM 類的組件 277
訓練RBM 推薦系統 280
結論 281
第11 章 基於深度信念網路的特徵檢測 282
深層信念網路詳述 282
MNIST 圖像分類 283
受限波爾茲曼機 285
構建RBM 類的組件 286
使用RBM 模型生成圖像 289
查看中間特徵檢測器 289
為DBN 訓練三個RBM 290
檢查特徵檢測器(Examine Feature Detectors) 293
查看生成的圖像 294
完整DBN 297
DBN 訓練的工作原理 302
訓練DBN 302
無監督學習如何幫助監督學習 304
使用LightGBM 的圖像分類器 312
監督學習 312
無監督和監督的解決方案 314
結論 315
第12 章 生成對抗網路 316
生成對抗網路概念 316
深度卷積生成對抗網路 317
卷積神經網路 318
重新思考DCGAN 323
DCGAN 生成器 324
DCGAN 的鑑別器 326
鑑別器和對抗模型 327
MNIST 數據集的DCGAN 328
在MNIST 數據集執行DCGAN 330
結論 332
第13 章 時間序列聚類 333
心電數據 334
走進時間序列聚類 334
心電圖k 形時間序列聚類 335
數據準備 336
訓練和評估 340
在ECG5000 上使用k 形進行時間序列聚類 342
數據準備 342
訓練和評估 346
基於k 均值的ECG5000 時間序列聚類 348
基於ECG5000 的分層DBSCAN 時間序列聚類 349
比較時間序列聚類算法 350
k 形 351
k 均值 353
HDBSCAN 354
比較所有三種時間序列聚類方法 355
結論 357
第14 章 尾聲 358
監督學習 359
無監督學習 359
SciKit-Learn 360
TensorFlow 和Keras 361
強化學習 362
今天最有希望的無監督學習領域 362
無監督學習的未來 364
結語 366
作者介紹 367
封面介紹 367

相關詞條

熱門詞條

聯絡我們