基於Spark的下一代機器學習

內容簡介

本書先簡單介紹了Spark和Spark MLlib，然後介紹標準Spark MLlib庫之外的更強大的第三方機器學習算法和庫。通過閱讀本書，你將能夠通過幾十個實際的例子和深刻的解釋，將所學到的知識套用到真實世界的用例。

圖書目錄

目　　錄

前言

致謝

關於作者

關於技術審校人員

第1章　機器學習介紹 1

1.1　人工智慧和機器學習用例 2

1.1.1　零售業 2

1.1.2　交通運輸 3

1.1.3　金融服務 3

1.1.4　醫療保健和生物技術 3

1.1.5　製造業 3

1.1.6　政府部門 4

1.2　機器學習與數據 4

1.3　機器學習方法 6

1.3.1　有監督學習 6

1.3.2　無監督學習 6

1.3.3　半監督學習 6

1.3.4　強化學習 6

1.4　深度學習 7

1.5　神經網路 7

1.6　卷積神經網路 7

1.7　特徵工程 7

1.7.1　特徵選擇 8

1.7.2　特徵重要性 9

1.7.3　特徵提取 9

1.7.4　特徵構建 9

1.8　模型評估 10

1.8.1　準確率 10

1.8.2　精度 10

1.8.3　召回率 11

1.8.4　F1度量 11

1.8.5　AUROC 11

1.9　過擬合與欠擬合 12

1.10　模型選擇 12

1.11　總結 12

1.12　參考資料 13

第2章　Spark和Spark MLlib

介紹 16

2.1　概述 16

2.2　架構 17

2.3　執行Spark應用程式 19

2.3.1　集群模式 19

2.3.2　客戶端模式 19

2.4　spark-shell介紹 19

2.4.1　SparkSession 20

2.4.2　彈性分散式數據集 21

2.5　Spark SQL、DataSet和DataFrame的 API 29

2.6　Spark數據源 31

2.6.1　CSV 31

2.6.2　XML 31

2.6.3　JSON 32

2.6.4　關係資料庫和MPP資料庫 33

2.6.5　Parquet 36

2.6.6　HBase 36

2.6.7　Amazon S3 41

2.6.8　Solr 42

2.6.9　Microsoft Excel 43

基於Spark的下一代機器學習

基本介紹

內容簡介

圖書目錄

作者簡介

相關詞條

熱門詞條