PySpark實戰指南是作者〔美〕托馬茲·卓巴斯(Tomasz Drabas)〔美〕丹尼·李(Denny Lee)撰寫的書籍,於2017年11月出版發行。
基本介紹
- 中文名:PySpark實戰指南
- 出版時間:2017年11月
基本信息,內容介紹,目錄,
基本信息
作者〔美〕托馬茲·卓巴斯(Tomasz Drabas)〔美〕丹尼·李(Denny Lee)
譯者欒雲傑陳瑤劉旭斌
類別 圖書 / 非虛構
出版社機械工業出版社 / 2017-11
提供方華章數媒
字數約 70,000 字
內容介紹
Python是數據分析最常用的語言之一,而Apache Spark是一個開源的強大的分散式查詢和處理引擎。本書用詳盡的例子介紹了如何使用Python來調用Spark的新特性,如何處理結構化和非結構化的數據,如何使用PySpark中一些基本的可用數據類型,如何生成機器學習模型、操作圖像、閱讀串流數據以及在雲上部署你的模型。
數據是每個人身邊都存在的,理解學習比較容易,但是數據量足夠大才是一個相對準確的學習平台。在實踐中,如何確定訓練集合、如何將髒數據處理為清潔數據、如何填充數據等等,需要結合本書的知識理論,清楚了解待處理的大數據特性。每一種數據的特徵或特性都不一致,所以前期的準備和調研必不可少。本書不僅僅是一本工具書,也是一本能深入淺出、結合簡單實例來介紹PySpark語言的書。
目錄
譯者序
序
前言
關於作者
第1章 了解Spark
1.1 什麼是Apache Spark
1.2 Spark作業和API
1.3 Spark 2.0的架構
1.4 小結
第2章 彈性分散式數據集
2.1 RDD的內部運行方式
2.2 創建RDD
2.3 全局作用域和局部作用域
2.4 轉換
2.5 操作
2.6 小結
第3章 DataFrame
3.1 Python到RDD之間的通信
3.2 Catalyst最佳化器刷新
3.3 利用DataFrame加速PySpark
3.4 創建DataFrame
3.5 簡單的DataFrame查詢
3.6 RDD的互動操作
3.7 利用DataFrame API查詢
3.8 利用SQL查詢
3.9 DataFrame場景——實時飛行性能
3.10 Spark數據集(Dataset)API
3.11 小結
第4章 準備數據建模
4.1 檢查重複數據、未觀測數據和異常數據(離群值)
4.2 熟悉你的數據
4.3 可視化
4.4 小結
第5章 MLlib介紹
5.1 包概述
5.2 載入和轉換數據
5.3 了解你的數據
5.4 創建最終數據集
5.5 預測嬰兒生存機會
5.6 小結
第6章 ML包介紹
6.1 包的概述
6.2 使用ML預測嬰兒生存幾率
6.3 超參調優
6.4 使用PySpark ML的其他功能
6.5 小結
第7章 GraphFrames
7.1 GraphFrames介紹
7.2 安裝GraphFrames
7.3 準備你的航班數據集
7.4 構建圖形
7.5 執行簡單查詢
7.6 理解節點的度
7.7 確定最大的中轉機場
7.8 理解Motif
7.9 使用PageRank確定機場排名
7.10 確定最受歡迎的直飛航班
7.11 使用廣度優先搜尋
7.12 使用D3將航班可視化
7.13 小結
第8章 TensorFrames
8.1 深度學習是什麼
8.2 TensorFlow是什麼
8.3 TensorFrames介紹
8.4 TensorFrames快速入門
8.5 小結
第9章 使用Blaze實現混合持久化
9.1 安裝Blaze
9.2 混合持久化
9.3 抽象數據
9.4 數據操作
9.5 小結
第10章 結構化流
10.1 什麼是Spark Streaming
10.2 為什麼需要Spark Streaming
10.3 Spark Streaming應用程式數據流是什麼
10.4 使用DStream簡化Streaming應用程式
10.5 全局聚合快速入門
10.6 結構化流介紹
10.7 小結
第11章 打包Spark應用程式
11.1 spark-submit命令
11.2 以編程方式部署應用程式
11.3 Databricks作業
11.4 小結