Spark大數據編程基礎（Scala版）

內容簡介

《普通高等院校數據科學與大數據技術專業“十三五”規劃教材：Spark大數據編程基礎（Scala版）》主要參照“數據科學與大數據技術”本科專業的培養方案，綜合考慮專業的來源，如從計算機類專業、數學統計類專業以及經濟類專業發展而來，同時適當兼顧了專科類偏向實際套用的特點。《普通高等院校數據科學與大數據技術專業“十三五”規劃教材：Spark大數據編程基礎（Scala版）》成體系的介紹了Spark大數據編程技術，本書分為三個部分共10章，從“Spark環境介紹”開始（包括Spark的背景和運行架構），以“Spark編程入門基礎”為承接（包括Scala語言編程基礎、Scala面向對象編程和彈性分散式數據集編程）、最後具體到每一個“Spark編程組件”（包括Spark SQL、Spark Streaming、Spark GraphX和Spark ML）。本書在編寫過程中力求深入淺出，重點突出，儘可能方便不同專業背景和知識層次的讀者閱讀。而且注重理論聯繫實際，注重能力培養，訓練學生掌握知識、運用知識分析並解決實際問題的能力，以滿足學生今後就業或科研的需求。

第一部分包含第1～2章，講述了“Spark的開發環境”部分。

其中，第1章對Spark的背景和運行架構進行了概述；第2章對Spark開發環境的搭建進行了詳細介紹。這是學習後續章節的基礎。

第二部分包含了第3～5章，講述了“Spark編程入門基礎”部分，重點介紹了Scala編程基礎和彈性分散式數據集（Resilient Distributed Dataset，RDD）編程。

本書採用Scala程式語言，因此第3章和第4章分別介紹了Scala語言基礎和Scala面向對象編程。彈性分散式數據集（ResilientDistributed Dataset，RDD）是Spark對數據的核心抽象，因此第5章介紹了RDD編程。

第三部分包含了第6～10章，講述了“Spark編程組件”部分，重點介紹了Spark SQL、Spark Streaming、Spark GraphX、Spark ML四個組件的編程。

其中，第6章介紹了Spark SQL，可以高效的處理結構化數據；第7章介紹了Spark Streaming，可以高效的處理流式數據；第8章介紹了Spark GraphX，可以高效的處理圖數據；第9章和第10章介紹了Spark ML，分別以Spark機器學習原理和Spark機器學習模型為重點進行介紹。

Spark大數據編程基礎（Scala版）

基本介紹

內容簡介

圖書目錄

相關詞條

熱門詞條