Spark大數據分析技術（Python版·微課版）

內容簡介

本書系統介紹Spark大數據處理框架。全書共8章,內容包括大數據技術概述、Spark大數據處理框架、Spark RDD編程、Spark SQL結構化數據處理、HBase分散式資料庫、Spark Streaming流計算、Spark MLlib機器學習、數據可視化。本書可作為高等院校計算機科學與技術、信息管理與信息系統、軟體工程、數據科學與大數據技術、人工智慧等專業的大數據課程教材，也可供從事大數據開發和研究工作的工程師和科技工作者參考。

圖書目錄

第1章大數據技術概述1

1.1大數據的基本概念1

1.1.1大數據的定義1

1.1.2大數據的特徵1

1.1.3大數據思維2

1.2代表性大數據技術3

1.2.1Hadoop3

1.2.2Spark5

1.2.3Flink5

1.3大數據程式語言5

1.4線上資源5

1.5拓展閱讀——三次信息化浪潮的啟示6

1.6習題6

第2章Spark大數據處理框架7

2.1Spark概述7

2.1.1Spark的產生背景7

2.1.2Spark的優點8

2.1.3Spark的套用場景9

2.1.4Spark的生態系統9

2.2Spark運行機制10

2.2.1Spark基本概念10

2.2.2Spark運行架構12

2.3在VirtualBox上安裝Linux集群13

2.3.1Master節點的安裝13

2.3.2虛擬機克隆安裝Slave1節點22

2.4Hadoop安裝前的準備工作26

2.4.1創建hadoop用戶和更新APT262.4.2安裝SSH、配置SSH無密碼登錄27

2.4.3安裝Java環境28

2.4.4Linux系統下Scala版本的Eclipse的安裝與配置29

2.4.5Eclipse環境下Java程式開發實例30

2.5Hadoop的安裝與配置32

2.5.1下載Hadoop安裝檔案32

2.5.2Hadoop單機模式配置33

2.5.3Hadoop偽分散式模式配置35

2.5.4Hadoop分散式模式配置40

2.6Spark的安裝與配置49

2.6.1下載Spark安裝檔案49

2.6.2單機模式配置50

2.6.3偽分散式模式配置51

2.7使用PySpark編寫Python代碼54

2.8安裝pip工具和常用的數據分析庫55

2.9安裝Anaconda和配置Jupyter Notebook55

Spark大數據分析技術（Python版·微課版）

基本介紹

內容簡介

圖書目錄

相關詞條

熱門詞條