Spark大數據處理與分析

Spark大數據處理與分析

《Spark大數據處理與分析》是2020年清華大學出版社出版的圖書,作者是雷擎。

基本介紹

  • 中文名:Spark大數據處理與分析
  • 作者:雷擎
  • 出版時間:2020年11月1日
  • 出版社:清華大學出版社
  • ISBN:9787302560777
內容簡介,圖書目錄,作者簡介,

內容簡介

本書是Spark技術入門的基礎類書籍,通過本書的學習實驗可以牢固掌握Spark編程技術的基本概念、原理和編程方法,能夠進行應用程式的實際開發。

圖書目錄

第1章Spark生態環境/1
1.1平台設計1
1.2Spark簡介5
1.2.1技術特性6
1.2.2數據格式9
1.2.3程式語言12
1.3虛擬環境18
1.3.1發展歷史19
1.3.2技術特徵20
1.3.3技術架構21
1.3.4管理命令24
1.4HBase技術30
1.4.1系統架構31
1.4.2存儲機制33
1.4.3常用命令35
1.5環境部署46
1.6小結46
第2章理解Spark/47
2.1數據處理48
2.1.1MapReduce48
2.1.2工作機制51
2.2認識RDD54
2.3操作RDD57
2.3.1轉換57
2.3.2動作62
2.4Scala編程66
2.4.1面向對象編程66
2.4.2函式式編程83
2.4.3集合類88
2.5案例分析96
2.5.1啟動交換界面97
2.5.2SparkContext和
SparkSession98
2.5.3載入數據99
2.5.4套用操作100
2.5.5快取處理103
2.6小結106
第3章鍵值對與分區/107
3.1鍵值對RDD107
3.1.1創建108
3.1.2轉換111
3.1.3動作123
3.2分區和洗牌124
3.2.1分區125
3.2.2洗牌131
3.3共享變數133
3.3.1廣播變數133
3.3.2累加器136
3.4Scala高級語法139
3.4.1高階函式139
3.4.2泛型類145
3.4.3隱式轉換150
3.5案例分析152
3.5.1檢查事件數據153
3.5.2reduceByKey和
groupByKey155
3.5.3三種連線轉換159
3.5.4執行幾個動作161
3.5.5跨節點分區162
3.6小結164
第4章關係型數據處理/166
4.1Spark SQL概述167
4.1.1Catalyst最佳化器168
4.1.2DataFrame與
DataSet169
4.1.3創建結構化數據171
4.2結構化數據操作181
4.2.1選取列182
4.2.2選擇語句(select、selectExpr)184
4.2.3操作列(withColumn、withColumnRenamed、drop)186
4.2.4條件語句(where、filter)187
4.2.5去除重複(distinct、dropDuplicates)189
4.2.6排序語句(sort、orderBy)190
4.2.7操作多表(union、join)191
4.2.8聚合操作198
4.2.9用戶定義函式202
4.3案例分析204
4.3.1創建DataFrame
204
4.3.2操作DataFrame
209
4.3.3按年份組合211
4.4小結213
第5章數據流的操作/214
5.1處理範例215
5.1.1至少一次215
5.1.2最多一次216
5.1.3恰好一次216
5.2理解時間218
5.3離散化流219
5.3.1一個例子220
5.3.2StreamingContext
222
5.3.3輸入流223
5.4離散流的操作228
5.4.1基本操作229
5.4.2transform230
5.4.3連線操作232
5.4.4SQL操作232
5.4.5輸出操作233
5.4.6視窗操作235
5.4.7有狀態轉換237
5.5結構化流242
5.5.1一個例子242
5.5.2工作機制245
5.5.3視窗操作251
5.6案例分析255
5.6.1探索數據256
5.6.2創建數據流260
5.6.3轉換操作267
5.6.4視窗操作268
5.7小結271
〖1〗Spark大數據處理與分析目錄〖3〗〖3〗第6章分散式的圖處理/272
6.1理解圖的概念272
6.2圖並行系統276
6.3一個例子279
6.4創建和探索圖283
6.4.1屬性圖284
6.4.2構建器287
6.4.3創建圖288
6.4.4探索圖296
6.5圖運算符298
6.5.1屬性運算符300
6.5.2結構運算符301
6.5.3聯結運算符305
6.5.4點和邊操作311
6.5.5收集相鄰信息314
6.6Pregel317
6.6.1一個例子318
6.6.2Pregel運算符320
6.6.3標籤傳播算法321
6.6.4PageRank算法322
6.7案例分析325
6.7.1定義點326
6.7.2定義邊328
6.7.3創建圖329
6.7.4PageRank331
6.7.5Pregel332
6.8小結334
第7章機器學習/335
7.1MLlib335
7.2數據類型336
7.2.1局部向量336
7.2.2標籤向量337
7.2.3局部矩陣338
7.2.4分布矩陣340
7.3統計基礎344
7.3.1相關分析344
7.3.2假設檢驗346
7.3.3摘要統計347
7.4算法概述348
7.4.1有監督學習349
7.4.2無監督學習350
7.4.3多種算法介紹351
7.4.4協同過濾353
7.5交叉驗證354
7.6機器學習管道355
7.6.1概念介紹356
7.6.2Spark管道357
7.6.3模型選擇364
7.7實例分析371
7.7.1預測用戶偏好371
7.7.2分析飛行延誤377
7.8小結384
第8章特徵工程/385
8.1特徵提取385
8.1.1TFIDF385
8.1.2Word2Vec388
8.1.3CountVectorizer
390
8.2特徵轉換392
8.2.1Tokenizer392
8.2.2StopWordsRemover
394
8.2.3ngram395
8.2.4Binarizer396
8.2.5PCA396
8.2.6PolynomialExpansion
397
8.2.7Discrete Cosine
Transform398
8.2.8StringIndexer400
8.2.9IndexToString402
8.2.10OneHotEncoder
405
8.2.11VectorIndexer406
8.2.12Interaction408
8.2.13Normalizer411
8.2.14StandardScaler
413
8.2.15MinMaxScaler415
8.2.16MaxAbsScaler417
8.2.17Bucketizer418
8.2.18ElementwiseProduct
419
8.2.19SQLTransformer
420
8.2.20VectorAssembler
421
8.2.21QuantileDiscretizer
423
8.2.22Imputer424
8.3特徵選擇426
8.3.1VectorSlicer426
8.3.2RFormula428
8.3.3ChiSqSelector430
8.4局部敏感哈希433
8.4.1局部敏感哈希
操作433
8.4.2局部敏感哈希
算法434
8.5小結439
第9章算法匯總/440
9.1決策樹和集成樹440
9.1.1決策樹440
9.1.2集成樹447
9.2分類和回歸461
9.2.1線性方法462
9.2.2分類463
9.2.3回歸487
9.3聚集505
9.3.1K均值505
9.3.2潛在狄利克雷
分配506
9.3.3二分K均值509
9.3.4高斯混合模型510
9.4小結512第10章Spark應用程式/513
10.1SparkContext與
SparkSession513
10.2構建套用519
10.3部署套用527
10.3.1集群架構531
10.3.2集群管理534
10.4小結542
第11章監視和最佳化/543
11.1工作原理543
11.1.1依賴關係544
11.1.2劃分階段547
11.1.3實例分析548
11.2洗牌機制553
11.3記憶體管理555
11.4最佳化策略558
11.4.1數據序列化558
11.4.2記憶體調優559
11.4.3其他方面561
11.5最佳實踐563
11.5.1系統配置563
11.5.2程式調優569
11.6案例分析576
11.6.1執行模型576
11.6.2監控界面578
11.6.3調試最佳化583
11.7小結585
參考文獻/586

作者簡介

雷擎,對外經濟貿易大學教師,中國科學院計算技術研究所博士

相關詞條

熱門詞條

聯絡我們