Как сохранить DataFrame как сжатый (gzipped) CSV?
Я использую Spark 1.6.0 и Scala.
Я хочу сохранить DataFrame в сжатом формате CSV.
Вот то, что я до сих пор (предположим, у меня уже естьdf
а такжеsc
какSparkContext
):
//set the conf to the codec I want
sc.getConf.set("spark.hadoop.mapred.output.compress", "true")
sc.getConf.set("spark.hadoop.mapred.output.compression.codec", "true")
sc.getConf.set("spark.hadoop.mapred.output.compression.codec", "org.apache.hadoop.io.compress.GzipCodec")
sc.getConf.set("spark.hadoop.mapred.output.compression.type", "BLOCK")
df.write
.format("com.databricks.spark.csv")
.save(my_directory)
Выход не вgz
формат.