Искра: Вырубить нет. выходных файлов

Я написал программу Spark, которая имитирует функциональность существующего задания Map Reduce. Работа MR занимает около 50 минут каждый день, но работа Spark заняла всего 9 минут! Замечательно!

Когда я посмотрел на выходной каталог, я заметил, что он создал 1020 файлов деталей. Работа MR использует только 20 редукторов, поэтому она создает только 20 файлов. Нам нужно сократить количество выходных файлов; в противном случае наше пространство имен будет заполнено в кратчайшие сроки.

Я пытаюсь выяснить, как я могу уменьшить количество выходных файлов под Spark. Похоже, что запускается 1020 задач, и каждая из них создает файл детали. Это правильно? Должен ли я изменитьуровень параллелизма Вырубить нет. задач, тем самым уменьшая нет. выходных файлов? Если да, то как мне это установить? Я боюсь вырубить нет. задач замедлит этот процесс - но я могу это проверить!

Ответы на вопрос(1)

Ваш ответ на вопрос