Spark大數據分析

內容簡介

本書是關於大數據和Spark的一個簡明手冊。它將助你學習如何用Spark來完成很多大數據分析任務，其中覆蓋了高效利用Spark所需要知道的重要主題：如何使用SparkShell進行互動式數據分析、如何編寫Spark套用、如何在Spark中對大規模數據進行互動分析、如何使用SparkStreaming處理高速數據流、如何使用Spark進行機器學習、如何使用Spark進行圖處理、如何使用集群管理員部署Spark、如何監控Spark套用等。本書還對其他配合Spark一起使用的大數據技術進行了介紹，包括HDFS、Avro、Parquet、Kafka、Cassandra、HBase、Mesos等。本書也對機器學習和圖的概念進行了介紹。

圖書目錄

Contents 目　　錄

譯者序

前言

致謝

第1章　大數據技術一覽1

1.1　Hadoop2

1.1.1　HDFS3

1.1.2　MapReduce5

1.1.3　Hive5

1.2　數據序列化6

1.2.1　Avro6

1.2.2　Thrift6

1.2.3　Protocol Buffers7

1.2.4　SequenceFile7

1.3　列存儲7

1.3.1　RCFile8

1.3.2　ORC8

1.3.3　Parquet9

1.4　訊息系統9

1.4.1　Kafka10

1.4.2　ZeroMQ11

1.5　NoSQL12

1.5.1　Cassandra13

1.5.2　HBase13

1.6　分散式SQL查詢引擎14

1.6.1　Impala14

1.6.2　Presto14

1.6.3　Apache Drill15

1.7　總結15

第2章　Scala編程16

2.1　函式式編程16

2.1.1　函式17

2.1.2　不可變數據結構18

2.1.3　一切皆表達式19

2.2　Scala基礎19

2.2.1　起步20

2.2.2　基礎類型20

2.2.3　變數21

2.2.4　函式21

2.2.5　類24

2.2.6　單例24

2.2.7　樣本類25

2.2.8　模式匹配25

2.2.9　操作符26

2.2.10　特質26

2.2.11　元組27

2.2.12　Option類型27

2.2.13　集合28

2.3　一個單獨的Scala應用程式32

Spark大數據分析

基本介紹

內容簡介

圖書目錄

相關詞條

熱門詞條