¿Cómo puedo escribir un archivo de parquet usando Spark (pyspark)?
Soy bastante nuevo en Spark y he estado tratando de convertir un Dataframe a un archivo de parquet en Spark, pero aún no he tenido éxito. losdocumentación dice que puedo usarescribir.parquet función para crear el archivo. Sin embargo, cuando ejecuto el script me muestra:AttributeError: el objeto 'RDD' no tiene el atributo 'write'
from pyspark import SparkContext
sc = SparkContext("local", "Protob Conversion to Parquet ")
# spark is an existing SparkSession
df = sc.textFile("/temp/proto_temp.csv")
# Displays the content of the DataFrame to stdout
df.write.parquet("/output/proto.parquet")
¿Sabes cómo hacer que esto funcione?
La versión de spark que estoy usando es Spark 2.0.1 construida para Hadoop 2.7.3.