Spark 3.0大數據分析與挖掘：基於機器學習

內容簡介

Spark作為新興的、套用範圍廣泛的大數據處理開源框架，吸引了大量的大數據分析與挖掘從業人員進行相關內容的學習與開發，其中ML是Spark 3.0機器學習框架使用的核心。本書用於Spark 3.0 ML大數據分析與挖掘入門，配套示例源碼、PPT課件、數據集、思維導圖、開發環境和作者答疑服務。

本書共分13章，從Spark 3.0大數據分析概述、基礎安裝和配置開始，依次介紹ML的DataFrame、ML的基本概念，以及協同過濾、線性回歸、分類、決策樹與隨機森林、聚類、關聯規則、數據降維、特徵提取和轉換等數據處理方法；最後通過經典的鳶尾花分析實例，回顧前面的學習內容，實現了一個完整的數據分析與挖掘過程。

本書採取實例和理論相結合的方式，講解細緻直觀，示例豐富，適合Spark 3.0機器學習初學者、大數據分析和挖掘人員，也適合高等院校和培訓機構人工智慧與大數據相關專業的師生教學參考。

作者簡介

王曉華，計算機專業講師，研究方向為雲計算、大數據與人工智慧。著有《Spark MLlib機器學習實踐》《TensorFlow深度學習套用實踐》《OpenCV+TensorFlow深度學習與計算機視覺實戰》《TensorFlow知識圖譜實戰》《TensorFlow人臉識別實戰》《TensorFlow語音識別實戰》《TensorFlow 2.0卷積神經網路實戰》《Keras實戰：基於TensorFlow2.2的深度學習實踐》《TensorFlow深度學習從零開始學》《深度學習的數學原理與實現》等圖書。

圖書目錄

第1章 Spark大數據分析概述 1

1.1 大數據時代 1

1.2 大數據分析的要素 2

1.3 簡單、優雅、有效—這就是Spark 3

1.4 Spark 3.0核心—ML 4

1.5 星星之火，可以燎原 6

1.6 小結 6

第2章 Spark 3.0安裝和開發環境配置 7

2.1 Windows 10單機模式下安裝和配置Spark 7

2.1.1 Windows 10安裝Java 8 7

2.1.2 Windows 10安裝Scala 2.12.10 10

2.1.3 Intellij IDEA下載和安裝 13

2.1.4 Intellij IDEA中Scala外掛程式的安裝 13

2.1.5 HelloJava—使用Intellij IDEA創建Java程式 16

2.1.6 HelloScala—使用Intellij IDEA創建Scala程式 19

2.1.7 最後一腳—Spark 3.0單機版安裝 22

2.2 經典的wordCount 25

Spark 3.0大數據分析與挖掘：基於機器學習

基本介紹

內容簡介

作者簡介

圖書目錄

熱門詞條