Spark: saveAsTextFile без сжатия
По умолчанию более новые версии Spark используют сжатие при сохранении текстовых файлов. Например:
val txt = sc.parallelize(List("Hello", "world", "!"))
txt.saveAsTextFile("/path/to/output")
создаст файлы в.deflate
формат. Изменить алгоритм сжатия довольно просто, например, за.gzip
:
import org.apache.hadoop.io.compress._
val txt = sc.parallelize(List("Hello", "world", "!"))
txt.saveAsTextFile("/path/to/output", classOf[GzipCodec])
Но есть ли способсохранить RDD в виде простых текстовых файлов, т.е.без какого-либо сжатия?