MapR изначально сжимает на уровне файловой системы, поэтому приложение не должно знать об этом или заботиться. Сжатие может быть включено или выключено на уровне каталога, так что вы можете сжимать входы, но не выходы или что угодно. Как правило, сжатие происходит настолько быстро (по умолчанию используется алгоритм, аналогичный snappy), что большинство приложений видят повышение производительности при использовании собственного сжатия. Если ваши файлы уже сжаты, это обнаруживается очень быстро, и сжатие отключается автоматически, поэтому вы также не видите там наказания.

я есть Java-программа Map-Reduce, в которой я пытаюсь сжать только вывод Mapper, но не вывод редуктора. Я подумал, что это будет возможно, установив следующие свойства в экземпляре конфигурации, как указано ниже. Однако, когда я запускаю свою работу, сгенерированный вывод редуктора все еще сжимается, так как сгенерированный файл: part-r-00000.gz. Кто-нибудь успешно просто сжал данные картографа, но не редуктор? Это вообще возможно?

// Сжимаем вывод картографа

conf.setBoolean("mapred.output.compress", true);
conf.set("mapred.output.compression.type", CompressionType.BLOCK.toString());
conf.setClass("mapred.output.compression.codec", GzipCodec.class, CompressionCodec.class);

Ответы на вопрос(5)

Ваш ответ на вопрос