Spark: diferença quando lido em .gz e .bz2

Question

May 25, 2016, 08:32 PM

Spark: diferença quando lido em .gz e .bz2

Normalmente, leio e escrevo arquivos no Spark usando .gz, cujo número de arquivos deve ser igual ao número de partições RDD. I.e. um arquivo .gz gigante será lido em uma única partição. No entanto, se eu ler em um único .bz2, ainda obteria uma única partição gigante? Ou o Spark suportará a divisão automática de um .bz2 em várias partições?

Além disso, como sei quantas partições seriam enquanto o Hadoop o lia de um arquivo bz2. Obrigado!