Spark: saveAsTextFile ohne Komprimierung
Standardmäßig verwenden neuere Versionen von Spark beim Speichern von Textdateien die Komprimierung. Beispielsweise
val txt = sc.parallelize(List("Hello", "world", "!"))
txt.saveAsTextFile("/path/to/output")
erzeugt Dateien in.deflate
Format. Es ist ziemlich einfach, den Komprimierungsalgorithmus zu ändern, z. zum.gzip
:
import org.apache.hadoop.io.compress._
val txt = sc.parallelize(List("Hello", "world", "!"))
txt.saveAsTextFile("/path/to/output", classOf[GzipCodec])
Aber es gibt einen Weg zusave RDD als reine Textdateien, d. h.ohne Komprimierung?