Spark: diferencia cuando se lee en .gz y .bz2

Question

May 25, 2016, 08:32 PM

Spark: diferencia cuando se lee en .gz y .bz2

Normalmente leo y escribo archivos en Spark usando .gz, cuyo número de archivos debe ser el mismo que el número de particiones RDD. Es decir. un archivo .gz gigante se leerá en una sola partición. Sin embargo, si leo en un solo .bz2, ¿obtendría una sola partición gigante? ¿O Spark admitirá la división automática de un .bz2 en varias particiones?

Además, ¿cómo sé cuántas particiones serían mientras Hadoop lo leyera desde un archivo bz2? ¡Gracias!