基於Spark的下一代機器學習

《基於Spark的下一代機器學習》是2021年機械工業出版社出版的圖書。

基本介紹

  • 中文名:基於Spark的下一代機器學習
  • 出版時間:2021年5月1日
  • 出版社:機械工業出版社
  • ISBN:9787111681250
內容簡介,圖書目錄,作者簡介,

內容簡介

本書先簡單介紹了Spark和Spark MLlib,然後介紹標準Spark MLlib庫之外的更強大的第三方機器學習算法和庫。通過閱讀本書,你將能夠通過幾十個實際的例子和深刻的解釋,將所學到的知識套用到真實世界的用例。

圖書目錄

目  錄
前言
致謝
關於作者
關於技術審校人員
第1章 機器學習介紹 1
1.1 人工智慧和機器學習用例 2
1.1.1 零售業 2
1.1.2 交通運輸 3
1.1.3 金融服務 3
1.1.4 醫療保健和生物技術 3
1.1.5 製造業 3
1.1.6 政府部門 4
1.2 機器學習與數據 4
1.3 機器學習方法 6
1.3.1 有監督學習 6
1.3.2 無監督學習 6
1.3.3 半監督學習 6
1.3.4 強化學習 6
1.4 深度學習 7
1.5 神經網路 7
1.6 卷積神經網路 7
1.7 特徵工程 7
1.7.1 特徵選擇 8
1.7.2 特徵重要性 9
1.7.3 特徵提取 9
1.7.4 特徵構建 9
1.8 模型評估 10
1.8.1 準確率 10
1.8.2 精度 10
1.8.3 召回率 11
1.8.4 F1度量 11
1.8.5 AUROC 11
1.9 過擬合與欠擬合 12
1.10 模型選擇 12
1.11 總結 12
1.12 參考資料 13
第2章 Spark和Spark MLlib
介紹 16
2.1 概述 16
2.2 架構 17
2.3 執行Spark應用程式 19
2.3.1 集群模式 19
2.3.2 客戶端模式 19
2.4 spark-shell介紹 19
2.4.1 SparkSession 20
2.4.2 彈性分散式數據集 21
2.5 Spark SQL、DataSet和DataFrame的 API 29
2.6 Spark數據源 31
2.6.1 CSV 31
2.6.2 XML 31
2.6.3 JSON 32
2.6.4 關係資料庫和MPP資料庫 33
2.6.5 Parquet 36
2.6.6 HBase 36
2.6.7 Amazon S3 41
2.6.8 Solr 42
2.6.9 Microsoft Excel 43
2.6.10 SFTP 44
2.7 Spark MLlib介紹 44
2.8 ML管道 46
2.8.1 管道 47
2.8.2 轉換器 47
2.8.3 估計器 47
2.8.4 ParamGridBuilder 47
2.8.5 CrossValidator 47
2.8.6 評估器 47
2.9 特徵提取、轉換和選擇 48
2.9.1 StringIndexer 48
2.9.2 Tokenizer 49
2.9.3 VectorAssembler 50
2.9.4 StandardScaler 51
2.9.5 StopWordsRemover 52
2.9.6 n-gram 52
2.9.7 OneHotEncoderEstimator 53
2.9.8 SQLTransformer 54
2.9.9 詞頻–逆文檔頻率 55
2.9.10 主成分分析 57
2.9.11 ChiSqSelector 57
2.9.12 Correlation 58
2.10 評估指標 60
2.10.1 AUROC 60
2.10.2 F1度量 61
2.10.3 均方根誤差 61
2.11 模型持久化 62
2.12 Spark MLlib示例 62
2.13 圖處理 66
2.14 超越Spark MLlib:第三方機器學習集成 66
2.15 利用Alluxio最佳化Spark和Spark MLlib 66
2.16 為什麼使用Alluxio 68
2.16.1 顯著提高大數據處理性能和可擴展性 68
2.16.2 多個框架和應用程式可以以讀寫記憶體的速度共享數據 69
2.17 在應用程式終止或失敗時提供高可用性和持久性 71
2.18 最佳化總體記憶體使用並最小化垃圾收集 74
2.19 降低硬體要求 74
2.20 Apache Spark和Alluxio 75
2.21 總結 75
2.22 參考資料 76
第3章 有監督學習 79
3.1 分類 79
3.1.1 分類類型 79
3.1.2 Spark MLlib分類算法 80
3.1.3 第三方分類和回歸算法 85
3.1.4 使用邏輯回歸算法的多類別分類 86
3.1.5 使用隨機森林算法進行流失預測 95
3.1.6 使用XGBoost4J-Spark的極端梯度提升算法 108
3.1.7 LightGBM:來自微軟的快速梯度提升算法 118
3.1.8 使用樸素貝葉斯進行情感分析 127
3.2 回歸 133
3.2.1 簡單線性回歸 134
3.2.2 使用XGBoost4J-Spark進行多元回歸分析 137
3.2.3 使用LightGBM進行多元回歸分析 143
3.3 總結 148
3.4 參考資料 149
第4章 無監督學習 154
4.1 k-means聚類算法 154
4.2 使用隱含狄利克雷分布進行主題建模 162
4.2.1 Stanford CoreNLP 163
4.2.2 John Snow實驗室的Spark NLP 164
4.2.3 示例 170
4.3 使用孤立森林進行異常檢測 182
4.3.1 參數 185
4.3.2 示例 186
4.4 使用主成分分析進行降維 188
4.5 總結 197
4.6 參考資料 197
第5章 推薦 200
5.1 推薦引擎的種類 201
5.1.1 使用交替最小二乘法的協同過濾 201
5.1.2 參數 203
5.1.3 示例 203
5.2 使用FP增長進行購物籃分析 209
5.2.1 示例 210
5.2.2 基於內容的過濾 217
5.3 總結 218
5.4 參考資料 218
第6章 圖分析 221
6.1 圖介紹 221
6.1.1 無向圖 221
6.1.2 有向圖 222
6.1.3 有向多重圖 222
6.1.4 屬性圖 223
6.2 圖分析用例 223
6.2.1 欺詐檢測和反洗錢 224
6.2.2 數據治理和法規遵從性 224
6.2.3 風險管理 224
6.2.4 運輸 225
6.2.5 社交網路 225
6.2.6 網路基礎設施管理 225
6.3 GraphX簡介 225
6.3.1 Graph 225
6.3.2 VertexRDD 226
6.3.3 Edge 226
6.3.4 EdgeRDD 226
6.3.5 EdgeTriplet 226
6.3.6 EdgeContext 226
6.3.7 GraphX 示例 226
6.3.8 圖算法 229
6.3.9 GraphFrames 232
6.4 總結 235
6.5 參考資料 236
第7章 深度學習 238
7.1 神經網路 239
7.2 神經網路的簡短歷史 240
7.3 卷積神經網路 242
7.4 深度學習框架 247
7.4.1 TensorFlow 247
7.4.2 Theano 247
7.4.3 PyTorch 247
7.4.4 DeepLearning4J 247
7.4.5 CNTK 248
7.4.6 Keras 248
7.4.7 使用Keras進行深度學習 248
7.5 Spark分散式深度學習 258
7.5.1 模型並行與數據並行 258
7.5.2 Spark分散式深度學習框架 259
7.6 Elephas:使用Keras和Spark進行分散式深度學習 261
7.7 Dist-Keras 270
7.7.1 使用基於Keras和Spark的Dist-Keras來識別MNIST中的手寫數字 271
7.7.2 貓和狗的圖像分類 276
7.8 總結 283
7.9 參考資料 283

作者簡介

Butch Quinto是Intelvi AI這家人工智慧公司的創始人兼首席人工智慧官,該公司為國防、工業和交通行業開發尖端解決方案。作為首席人工智慧官,Butch負責戰略、創新、研究和開發。此前,他曾在一家領先的技術公司擔任人工智慧主管,在一家人工智慧初創公司擔任首席數據官。在任職德勤(Deloitte)的分析總監期間,他曾領導多個企業級人工智慧和物聯網解決方案的開發,以及戰略、業務發展和風險投資盡職調查方面的工作。Butch在銀行與金融、電信、政府部門、公共事業、交通運輸、電子商務、零售業、製造業和生物信息學等多個行業擁有20多年的技術和領導經驗。他是Next-Generation Big Data(Apress,2018)的作者,也是人工智慧促進協會(AAAI)和美國科學促進會(AAAS)的成員。
關於技術審校人員
Irfan Elahi在數據科學和機器學習領域擁有多年經驗。他曾在諮詢公司、自己的創業公司和學術研究實驗室等多個垂直領域工作過。多年來,他在電信、零售業、網路、公共部門和能源等不同領域參與過很多數據科學和機器學習項目,旨在使企業從其數據資產中獲得巨大價值。

相關詞條

熱門詞條

聯絡我們