¿Cómo guardar un DataFrame como CSV comprimido (comprimido)?
Yo uso Spark 1.6.0 y Scala.
Quiero guardar un DataFrame como formato CSV comprimido.
Esto es lo que tengo hasta ahora (supongo que ya tengodf
ysc
comoSparkContext
):
//set the conf to the codec I want
sc.getConf.set("spark.hadoop.mapred.output.compress", "true")
sc.getConf.set("spark.hadoop.mapred.output.compression.codec", "true")
sc.getConf.set("spark.hadoop.mapred.output.compression.codec", "org.apache.hadoop.io.compress.GzipCodec")
sc.getConf.set("spark.hadoop.mapred.output.compression.type", "BLOCK")
df.write
.format("com.databricks.spark.csv")
.save(my_directory)
La salida no está engz
formato.