Spark: разница при чтении в .gz и .bz2
Я обычно читаю и записываю файлы в Spark, используя .gz, количество файлов должно быть таким же, как и количество разделов RDD. То есть один гигантский файл .gz будет считан в один раздел. Однако, если я прочитаю в одном .bz2, получу ли я один гигантский раздел? Или Spark будет поддерживать автоматическое разделение одного .bz2 на несколько разделов?
Кроме того, как мне узнать, сколько будет разделов, пока Hadoop читает из одного файла bz2? Спасибо!