¿Cómo puedo escribir un archivo de parquet usando Spark (pyspark)?

Question

Feb 03, 2017, 12:13 PM

¿Cómo puedo escribir un archivo de parquet usando Spark (pyspark)?

Soy bastante nuevo en Spark y he estado tratando de convertir un Dataframe a un archivo de parquet en Spark, pero aún no he tenido éxito. losdocumentación dice que puedo usarescribir.parquet función para crear el archivo. Sin embargo, cuando ejecuto el script me muestra:AttributeError: el objeto 'RDD' no tiene el atributo 'write'

from pyspark import SparkContext
sc = SparkContext("local", "Protob Conversion to Parquet ")

# spark is an existing SparkSession
df = sc.textFile("/temp/proto_temp.csv")

# Displays the content of the DataFrame to stdout
df.write.parquet("/output/proto.parquet")

¿Sabes cómo hacer que esto funcione?

La versión de spark que estoy usando es Spark 2.0.1 construida para Hadoop 2.7.3.