GZIP-Unterstützung in Spark

Question

Apr 30, 2013, 04:30 PM

GZIP-Unterstützung in Spark

Für ein Big-Data-Projekt plane ich die VerwendungFunke, das einige nette Features wie In-Memory-Berechnungen für wiederholte Workloads hat. Es kann auf lokalen Dateien oder auf HDFS ausgeführt werden.

In der offiziellen Dokumentation kann ich jedoch keinen Hinweis darauf finden, wie komprimierte Dateien verarbeitet werden sollen. In der Praxis kann es sehr effizient sein, .gz-Dateien anstelle von entpackten Dateien zu verarbeiten.

Gibt es eine Möglichkeit, das Lesen von GZ-Dateien manuell zu implementieren, oder erfolgt das Entpacken bereits automatisch beim Lesen einer GZ-Datei?