Como salvar um DataFrame como CSV compactado (compactado com gz)?
Eu uso Spark 1.6.0 e Scala.
Quero salvar um DataFrame como formato CSV compactado.
Aqui está o que eu tenho até agora (suponha que eu já tenhadf
esc
ComoSparkContext
):
//set the conf to the codec I want
sc.getConf.set("spark.hadoop.mapred.output.compress", "true")
sc.getConf.set("spark.hadoop.mapred.output.compression.codec", "true")
sc.getConf.set("spark.hadoop.mapred.output.compression.codec", "org.apache.hadoop.io.compress.GzipCodec")
sc.getConf.set("spark.hadoop.mapred.output.compression.type", "BLOCK")
df.write
.format("com.databricks.spark.csv")
.save(my_directory)
A saída não está nagz
formato.