Spark大數據處理與分析

Spark大數據處理與分析

《Spark大數據處理與分析》是2020年清華大學出版社出版的圖書，作者是雷擎。

基本介紹

中文名：Spark大數據處理與分析
作者：雷擎
出版時間：2020年11月1日
出版社：清華大學出版社
ISBN：9787302560777

內容簡介,圖書目錄,作者簡介,

內容簡介

本書是Spark技術入門的基礎類書籍，通過本書的學習實驗可以牢固掌握Spark編程技術的基本概念、原理和編程方法，能夠進行應用程式的實際開發。

圖書目錄

第1章Spark生態環境/1

1.1平台設計1

1.2Spark簡介5

1.2.1技術特性6

1.2.2數據格式9

1.2.3程式語言12

1.3虛擬環境18

1.3.1發展歷史19

1.3.2技術特徵20

1.3.3技術架構21

1.3.4管理命令24

1.4HBase技術30

1.4.1系統架構31

1.4.2存儲機制33

1.4.3常用命令35

1.5環境部署46

1.6小結46

第2章理解Spark/47

2.1數據處理48

2.1.1MapReduce48

2.1.2工作機制51

2.2認識RDD54

2.3操作RDD57

2.3.1轉換57

2.3.2動作62

2.4Scala編程66

2.4.1面向對象編程66

2.4.2函式式編程83

2.4.3集合類88

2.5案例分析96

2.5.1啟動交換界面97

2.5.2SparkContext和

SparkSession98

2.5.3載入數據99

2.5.4套用操作100

2.5.5快取處理103

2.6小結106

第3章鍵值對與分區/107

3.1鍵值對RDD107

3.1.1創建108

3.1.2轉換111

3.1.3動作123

3.2分區和洗牌124

3.2.1分區125

3.2.2洗牌131

3.3共享變數133

3.3.1廣播變數133

3.3.2累加器136

3.4Scala高級語法139

3.4.1高階函式139

3.4.2泛型類145

3.4.3隱式轉換150

3.5案例分析152

3.5.1檢查事件數據153

3.5.2reduceByKey和

groupByKey155

3.5.3三種連線轉換159

3.5.4執行幾個動作161

3.5.5跨節點分區162

3.6小結164

第4章關係型數據處理/166

4.1Spark SQL概述167

4.1.1Catalyst最佳化器168

4.1.2DataFrame與

DataSet169

4.1.3創建結構化數據171

4.2結構化數據操作181

4.2.1選取列182

4.2.2選擇語句(select、selectExpr)184

4.2.3操作列(withColumn、withColumnRenamed、drop)186

4.2.4條件語句(where、filter)187

4.2.5去除重複(distinct、dropDuplicates)189

4.2.6排序語句(sort、orderBy)190

4.2.7操作多表(union、join)191

4.2.8聚合操作198

4.2.9用戶定義函式202

4.3案例分析204

4.3.1創建DataFrame

204

4.3.2操作DataFrame

209

4.3.3按年份組合211

4.4小結213

第5章數據流的操作/214

5.1處理範例215

5.1.1至少一次215

5.1.2最多一次216

5.1.3恰好一次216

5.2理解時間218

5.3離散化流219

5.3.1一個例子220

5.3.2StreamingContext

222

5.3.3輸入流223

5.4離散流的操作228

5.4.1基本操作229

5.4.2transform230

5.4.3連線操作232

5.4.4SQL操作232

5.4.5輸出操作233

5.4.6視窗操作235

5.4.7有狀態轉換237

5.5結構化流242

5.5.1一個例子242

5.5.2工作機制245

5.5.3視窗操作251

5.6案例分析255

5.6.1探索數據256

5.6.2創建數據流260

5.6.3轉換操作267

5.6.4視窗操作268

5.7小結271

〖1〗Spark大數據處理與分析目錄〖3〗〖3〗第6章分散式的圖處理/272

6.1理解圖的概念272

6.2圖並行系統276

6.3一個例子279

6.4創建和探索圖283

6.4.1屬性圖284

6.4.2構建器287

6.4.3創建圖288

6.4.4探索圖296

6.5圖運算符298

6.5.1屬性運算符300

6.5.2結構運算符301

6.5.3聯結運算符305

6.5.4點和邊操作311

6.5.5收集相鄰信息314

6.6Pregel317

6.6.1一個例子318

6.6.2Pregel運算符320

6.6.3標籤傳播算法321

6.6.4PageRank算法322

6.7案例分析325

6.7.1定義點326

6.7.2定義邊328

6.7.3創建圖329

6.7.4PageRank331

6.7.5Pregel332

6.8小結334

第7章機器學習/335

7.1MLlib335

7.2數據類型336

7.2.1局部向量336

7.2.2標籤向量337

7.2.3局部矩陣338

7.2.4分布矩陣340

7.3統計基礎344

7.3.1相關分析344

7.3.2假設檢驗346

7.3.3摘要統計347

7.4算法概述348

7.4.1有監督學習349

7.4.2無監督學習350

7.4.3多種算法介紹351

7.4.4協同過濾353

7.5交叉驗證354

7.6機器學習管道355

7.6.1概念介紹356

7.6.2Spark管道357

7.6.3模型選擇364

7.7實例分析371

7.7.1預測用戶偏好371

7.7.2分析飛行延誤377

7.8小結384

第8章特徵工程/385

8.1特徵提取385

8.1.1TFIDF385

8.1.2Word2Vec388

8.1.3CountVectorizer

390

8.2特徵轉換392

8.2.1Tokenizer392

8.2.2StopWordsRemover

394

8.2.3ngram395

8.2.4Binarizer396

8.2.5PCA396

8.2.6PolynomialExpansion

397

8.2.7Discrete Cosine

Transform398

8.2.8StringIndexer400

8.2.9IndexToString402

8.2.10OneHotEncoder

405

8.2.11VectorIndexer406

8.2.12Interaction408

8.2.13Normalizer411

8.2.14StandardScaler

413

8.2.15MinMaxScaler415

8.2.16MaxAbsScaler417

8.2.17Bucketizer418

8.2.18ElementwiseProduct

419

8.2.19SQLTransformer

420

8.2.20VectorAssembler

421

8.2.21QuantileDiscretizer

423

8.2.22Imputer424

8.3特徵選擇426

8.3.1VectorSlicer426

8.3.2RFormula428

8.3.3ChiSqSelector430

8.4局部敏感哈希433

8.4.1局部敏感哈希

操作433

8.4.2局部敏感哈希

算法434

8.5小結439

第9章算法匯總/440

9.1決策樹和集成樹440

9.1.1決策樹440

9.1.2集成樹447

9.2分類和回歸461

9.2.1線性方法462

9.2.2分類463

9.2.3回歸487

9.3聚集505

9.3.1K均值505

9.3.2潛在狄利克雷

分配506

9.3.3二分K均值509

9.3.4高斯混合模型510

9.4小結512第10章Spark應用程式/513

10.1SparkContext與

SparkSession513

10.2構建套用519

10.3部署套用527

10.3.1集群架構531

10.3.2集群管理534

10.4小結542

第11章監視和最佳化/543

11.1工作原理543

11.1.1依賴關係544

11.1.2劃分階段547

11.1.3實例分析548

11.2洗牌機制553

11.3記憶體管理555

11.4最佳化策略558

11.4.1數據序列化558

11.4.2記憶體調優559

11.4.3其他方面561

11.5最佳實踐563

11.5.1系統配置563

11.5.2程式調優569

11.6案例分析576

11.6.1執行模型576

11.6.2監控界面578

11.6.3調試最佳化583

11.7小結585

參考文獻/586

作者簡介

雷擎，對外經濟貿易大學教師，中國科學院計算技術研究所博士

相關詞條

熱門詞條

聯絡我們