Spark: разница при чтении в .gz и .bz2

Question

May 25, 2016, 08:32 PM

Spark: разница при чтении в .gz и .bz2

Я обычно читаю и записываю файлы в Spark, используя .gz, количество файлов должно быть таким же, как и количество разделов RDD. То есть один гигантский файл .gz будет считан в один раздел. Однако, если я прочитаю в одном .bz2, получу ли я один гигантский раздел? Или Spark будет поддерживать автоматическое разделение одного .bz2 на несколько разделов?

Кроме того, как мне узнать, сколько будет разделов, пока Hadoop читает из одного файла bz2? Спасибо!

Spark: разница при чтении в .gz и .bz2

Ответы на вопрос(2)

Ваш ответ на вопрос

Популярные вопросы

Вы очень активны! Это здорово!

Spark: разница при чтении в .gz и .bz2

Ответы на вопрос(2)

Ваш ответ на вопрос

Популярные вопросы