Spark: Unterschied beim Einlesen von .gz und .bz2

Question

May 25, 2016, 08:32 PM

Spark: Unterschied beim Einlesen von .gz und .bz2

Normalerweise lese und schreibe ich Dateien in Spark mit .gz, wobei die Anzahl der Dateien der Anzahl der RDD-Partitionen entsprechen sollte. Das heißt Eine riesige .gz-Datei wird in eine einzelne Partition eingelesen. Wenn ich jedoch eine einzelne .bz2-Datei einliesse, bekomme ich dann immer noch eine einzelne Riesenpartition? Oder unterstützt Spark die automatische Aufteilung einer .bz2-Datei auf mehrere Partitionen?

Auch woher weiß ich, wie viele Partitionen es sein würden, während Hadoop es aus einer bz2-Datei einliest. Vielen Dank