Python和PySpark數據分析

內容簡介

Spark數據處理引擎是一個驚人的分析工廠：輸入原始數據，輸出洞察。PySpark用基於Python的API封裝了Spark的核心引擎。它有助於簡化Spark陡峭的學習曲線，並使這個強大的工具可供任何在Python數據生態系統中工作的人使用。《Python和PySpark數據分析》幫助你使用PySpark解決數據科學的日常挑戰。你將學習如何跨多台機器擴展處理能力，同時從任何來源(無論是Hadoop集群、雲數據存儲還是本地數據檔案)獲取數據。一旦掌握了基礎知識，就可以通過構建機器學習管道，並配合Python、pandas和PySpark代碼，探索PySpark的全面多功能特性。主要內容 ● 組織PySpark代碼 ● 管理任何規模的數據 ● 充滿信心地擴展你的數據項目 ● 解決常見的數據管道問題 ● 創建可靠的長時間運行的任務

圖書目錄

第1章介紹 1

1.1 什麼是PySpark 1

1.1.1 從頭開始：什麼是Spark 2

1.1.2 PySpark = Spark + Python 3

1.1.3 為什麼選擇PySpark 3

1.2 PySpark的工作原理 5

1.2.1 使用集群管理器進行物理規劃 6

1.2.2 懶惰的主管成就工廠的高效 8

1.3 你將從本書學到什麼 11

1.4 我們將如何開始 12

1.5 本章小結 13

第Ⅰ部分介紹：PySpark的第一步

第2章使用PySpark編寫的第一個數據處理程式 17

2.1 設定pyspark shell 18

2.1.1 SparkSession入口點 20

2.1.2 配置PySpark的日誌級別 21

2.2 映射程式 22

2.3 採集和探索：為數據轉換奠定基礎 23

2.3.1 用spark.read將數據讀入數據幀 24

2.3.2 從結構到內容：使用show()探索數據幀 27

2.4 簡單的列轉換：將句子拆解為單詞列表 29

2.4.1 使用select()選擇特定的列 30

2.4.2 轉換列：將字元串拆分為單詞列表 31

2.4.3 重命名列：alias和withColumnRenamed 33

2.4.4 重塑數據：將list分解成行 34

2.4.5 處理單詞：更改大小寫並刪除標點符號 36

Python和PySpark數據分析

基本介紹

內容簡介

圖書目錄

相關詞條

熱門詞條