Spark MLlib機器學習實踐

內容簡介

Spark作為新興的、套用範圍最為廣泛的大數據處理開源框架引起了廣泛的關注，它吸引了大量程式設計和開發人員進行相關內容的學習與開發，其中 MLlib是 Spark框架使用的核心。本書是一本細緻介紹 Spark MLlib程式設計的圖書，入門簡單，示例豐富。本書分為 12章，從 Spark基礎安裝和配置開始，依次介紹 MLlib程式設計基礎、MLlib的數據對象構建、MLlib中 RDD使用介紹，各種分類、聚類、回歸等數據處理方法，最後還通過一個完整的實例，回顧了前面的學習內容，並通過代碼實現了一個完整的分析過程。本書理論內容由淺而深，採取實例和理論相結合的方式，內容全面而詳盡，講解細緻直觀，適合 Spark MLlib初學者、大數據分析和挖掘人員，也適合高校和培訓學習相關專業的師生教學參考。

圖書目錄

第 1章星星之火 1

1.1 大數據時代 1

1.2 大數據分析時代 . 2

1.3 簡單、優雅、有效——這就是 Spark 3

1.4 核心——MLlib4

1.5 星星之火，可以燎原 .. 6

1.6 小結 6

第 2章 Spark安裝和開發環境配置.. 7

2.1 Windows單機模式 Spark安裝和配置 . 7

2.1.1 Windows 7安裝 Java.. 7

2.1.2 Windows 7安裝 Scala . 10

2.1.3 Intellij IDE下載和安裝.. 10

2.1.4 Intellij IDE中 Scala外掛程式的安裝 .. 11

2.1.5 Spark單機版安裝.. 14

2.2 經典的 WordCount . 15

2.2.1 Spark實現 WordCount 15

2.2.2 MapReduce實現 WordCount.. 17

2.3 小結 . 20

第 3章 RDD詳解 21

3.1 RDD是什麼 21

3.1.1 RDD名稱的秘密 21

3.1.2 RDD特性 22

3.1.3 與其他分散式共享記憶體的區別 . 23

3.1.4 RDD缺陷 23

3.2 RDD工作原理.. 24

3.2.1 RDD工作原理. 24

3.2.2 RDD的相互依賴 24

3.3 RDD套用 API詳解 .. 25

3.3.1 使用 aggregate方法對給定的數據集進行方法設定 ...

3.3.2提前計算的cache方法..28

3.3.3笛卡爾操作的cartesian方法..29

3.3.4分片存儲的coalesce方法.30

3.3.5以value計算的countByValue方法..31

3.3.6以key計算的countByKey方法..31

3.3.7除去數據集中重複項的distinct方法32

Spark MLlib機器學習實踐

基本介紹

內容簡介

圖書目錄

相關詞條

熱門詞條