Spark高級數據分析（第2版）

內容簡介

本書是使用Spark進行大規模數據分析的實戰寶典，由知名數據科學家撰寫。本書在第1版的基礎上，針對Spark近年來的發展，對樣例代碼和所使用的資料進行了大量更新。新版Spark使用了全新的核心API，MLlib和Spark SQL兩個子項目也發生了較大變化，本書為關注Spark發展趨勢的讀者提供了與時俱進的資料，例如Dataset和DataFrame的使用，以及與DataFrame API高度集成的Spark ML API。

圖書目錄

推薦序 ix

譯者序　xi

序　xiii

前言　xv

第　1章大數據分析　1

1.1　數據科學面臨的挑戰　2

1.2　認識Apache Spark　4

1.3　關於本書　5

1.4　第 2版說明　6

第　2章用Scala 和Spark 進行數據分析　8

2.1　數據科學家的Scala　9

2.2　Spark編程模型　10

2.3　記錄關聯問題　10

2.4　小試牛刀：Spark shell和SparkContext　11

2.5　把數據從集群上獲取到客戶端　16

2.6　把代碼從客戶端傳送到集群　19

2.7　從RDD到DataFrame　20

2.8　用DataFrame API來分析數據　23

2.9　DataFrame的統計信息　27

2.10　DataFrame的轉置和重塑　29

2.11　DataFrame的連線和特徵選擇　32

2.12　為生產環境準備模型　33

2.13　評估模型　35

2.14　小結　36

第3章　音樂推薦和Audioscrobbler數據集　37

3.1　數據集　38

3.2　交替最小二乘推薦算法　39

3.3　準備數據　41

3.4　構建第一個模型　44

3.5　逐個檢查推薦結果　47

3.6　評價推薦質量　50

3.7　計算AUC　51

3.8　選擇超參數　53

3.9　產生推薦　55

3.10　小結　56

第4章　用決策樹算法預測森林植被　58

4.1　回歸簡介　59

4.2　向量和特徵　59

4.3　樣本訓練　60

4.4　決策樹和決策森林　61

4.5　Covtype數據集　63

4.6　準備數據　64

4.7　第一棵決策樹　66

4.8　決策樹的超參數　72

4.9　決策樹調優　73

4.10　重談類別型特徵　77

4.11　隨機決策森林　79

4.12　進行預測　81

4.13　小結　82

Spark高級數據分析（第2版）

基本介紹

內容簡介

圖書目錄

相關詞條

熱門詞條