Spark: разница при чтении в .gz и .bz2

Я обычно читаю и записываю файлы в Spark, используя .gz, количество файлов должно быть таким же, как и количество разделов RDD. То есть один гигантский файл .gz будет считан в один раздел. Однако, если я прочитаю в одном .bz2, получу ли я один гигантский раздел? Или Spark будет поддерживать автоматическое разделение одного .bz2 на несколько разделов?

Кроме того, как мне узнать, сколько будет разделов, пока Hadoop читает из одного файла bz2? Спасибо!

Ответы на вопрос(2)

Ваш ответ на вопрос