PySpark

API簡介

PySpark 是 Spark 為 Python 開發者提供的 API，位於 $SPARK_HOME/bin 目錄，其依賴於 Py4J。

隨Spark 2.1.0發布的 Py4J位於 $SPARK_HOME/python/lib 目錄，對應的版本是 0.10.4。

pyspark.sql 模組

pyspark.streaming 模組

pyspark.ml 包

pyspark.mllib 包

pyspark.SparkConf

pyspark.SparkConf 類提供了對一個 Spark 應用程式配置的操作方法。用於將各種Spark參數設定為鍵值對。

pyspark.SparkContext

pyspark.SparkContext 類提供了套用與 Spark 互動的主入口點，表示套用與 Spark 集群的連線，基於這個連線，套用可以在該集群上創建 RDD 和廣播變數 (pyspark.Broadcast)

pyspark.SparkFiles

SparkFiles 只包含類方法，開發者不應創建 SparkFiles 類的實例。

pyspark.RDD

這個類是為 PySpark 操作 RDD􏵌􏱯􏰯􏱎􏲑􏰭􏰮􏰽 提供了基礎方法。

first() 是 pyspark.RDD 類提供的方法，返回 RDD 的第一個元素。

aggregate() 方法使用給定的組合函式和中性“零值，先聚合每個分區的元素，然後再聚合所有分區的結果。

cache() 使用默認存儲級別（MEMORY_ONLY）對此 RDD 進行持久化。

collect() 返回一個列表，包含此 RDD 中所有元素。

pyspark.Accumulator

一種“只允許添加”的共享變數，Spark 任務只能向其添加值。

pyspark.Broadcast

Spark 提供了兩種共享變數：廣播變數和累加器，pyspark.Broadcast 類提供了對廣播變數的操作方法。

pyspark.Accumulator

pyspark.Accumulator 提供了對累加器變數的操作方法。

累加器是僅僅被相關操作累加的變數，因此可以在並行中被有效地支持。