Como salvar um DataFrame como CSV compactado (compactado com gz)?

Question

Oct 20, 2016, 10:32 PM

Como salvar um DataFrame como CSV compactado (compactado com gz)?

Eu uso Spark 1.6.0 e Scala.

Quero salvar um DataFrame como formato CSV compactado.

Aqui está o que eu tenho até agora (suponha que eu já tenhadf esc ComoSparkContext):

//set the conf to the codec I want
sc.getConf.set("spark.hadoop.mapred.output.compress", "true")
sc.getConf.set("spark.hadoop.mapred.output.compression.codec", "true")
sc.getConf.set("spark.hadoop.mapred.output.compression.codec", "org.apache.hadoop.io.compress.GzipCodec")
sc.getConf.set("spark.hadoop.mapred.output.compression.type", "BLOCK")

df.write
  .format("com.databricks.spark.csv")
  .save(my_directory)

A saída não está nagz formato.