PySpark

PySpark

PySpark 是 Spark 為 Python 開發者提供的 API。

以下是 PySpark 提供的每個模組每個類的詳解及示例代碼。

基本介紹

  • 外文名:PySpark
  • 含義:Spark為 Python開發者提供的API
  • 最新版本:2.1.0
  • 對應的版本:0.10.4
API簡介,子模組,分類,

API簡介

PySpark 是 Spark 為 Python 開發者提供的 API,位於 $SPARK_HOME/bin 目錄,其依賴於 Py4J
隨Spark 2.1.0發布的 Py4J位於 $SPARK_HOME/python/lib 目錄,對應的版本是 0.10.4。

子模組

pyspark.sql 模組
pyspark.streaming 模組
pyspark.ml 包
pyspark.mllib 包

分類

pyspark.SparkConf
pyspark.SparkConf 類提供了對一個 Spark 應用程式配置的操作方法。用於將各種Spark參數設定為鍵值對。
pyspark.SparkContext
pyspark.SparkContext 類提供了套用與 Spark 互動的主入口點,表示套用與 Spark 集群的連線,基於這個連線,套用可以在該集群上創建 RDD 和 廣播變數 (pyspark.Broadcast)
pyspark.SparkFiles
SparkFiles 只包含類方法,開發者不應創建 SparkFiles 類的實例。
pyspark.RDD
這個類是為 PySpark 操作 RDD􏵌􏱯􏰯􏱎􏲑􏰭􏰮􏰽 提供了基礎方法。
first() 是 pyspark.RDD 類提供的方法,返回 RDD 的第一個元素。
aggregate() 方法使用給定的組合函式和中性“零值,先聚合每個分區的元素,然後再聚合所有分區的結果。
cache() 使用默認存儲級別(MEMORY_ONLY)對此 RDD 進行持久化。
collect() 返回一個列表,包含此 RDD 中所有元素。
pyspark.Accumulator
一種“只允許添加”的共享變數,Spark 任務只能向其添加值。
pyspark.Broadcast
Spark 提供了兩種共享變數:廣播變數 和 累加器,pyspark.Broadcast 類提供了對廣播變數的操作方法。
pyspark.Accumulator
pyspark.Accumulator 提供了對累加器變數的操作方法。
累加器是僅僅被相關操作累加的變數,因此可以在並行中被有效地支持。

相關詞條

熱門詞條

聯絡我們