Spark機器學習實戰

內容簡介

機器學習是一門多領域交叉學科，可以通過模擬來讓計算機獲取新的知識或技能。Apache Spark是一種通用大數據框架，也是一種近實時彈性分散式計算和數據虛擬化技術，Spark使人們可以大規模使用機器學習技術，而無須在專用數據中心或硬體上進行大量投資。本書提供了Apache Spark機器學習API的全面解決方案，不僅介紹了用Spark完成機器學習任務所需的基礎知識，也涉及一些Spark機器學習的高級技能。全書共有13章，從環境配置講起，陸續介紹了線性代數庫、數據處理機制、構建機器學習系統的常見攻略、回歸和分類、用Spark實現推薦引擎、無監督學習、梯度下降算法、決策樹和集成模型、數據降維、文本分析和Spark Steaming的使用。本書是為那些掌握了機器學習技術的Scala開發人員準備的，尤其適合缺乏Spark實踐經驗的讀者。本書假定讀者已經掌握機器學習算法的基礎知識，並且具有使用Scala實現機器學習算法的一些實踐經驗。但不要求讀者提前了解Spark ML庫及其生態系統。

圖書目錄

第 1章 Scala和Spark的機器學習實戰 1

1.1 引言 1

1.1.1 Apache Spark 2

1.1.2 機器學習 3

1.1.3 Scala 4

1.1.4 本書的軟體版本和使用的

類庫 5

1.2 下載和安裝JDK 6

1.2.1 準備工作 6

1.2.2 操作步驟 6

1.3 下載和安裝IntelliJ 6

1.3.1 準備工作 7

1.3.2 操作步驟 7

1.4 下載和安裝Spark 7

1.4.1 準備工作 7

1.4.2 操作步驟 7

1.5 用IntelliJ配置Spark 8

1.5.1 準備工作 8

1.5.2 操作步驟 8

1.5.3 更多 19

1.5.4 參考資料 19

1.6 運行Spark機器學習示例代碼 20

1.6.1 準備工作 20

1.6.2 操作步驟 20

1.7 獲取機器學習實戰所需的數據源 22

1.7.1 準備工作 22

1.7.2 操作步驟 22

1.7.3 更多 23

1.8 用IntelliJ IDE運行第一個Apache Spark 2.0程式 25

1.8.1 操作步驟 25

1.8.2 工作原理 31

1.8.3 更多 31

1.8.4 參考資料 32

1.9 在Spark程式中添加圖表 32

1.9.1 操作步驟 32

Spark機器學習實戰

基本介紹

內容簡介

圖書目錄

作者簡介

編輯推薦

相關詞條

熱門詞條