Faísca: Reduzir não. de arquivos de saída

Eu escrevi um programa Spark que imita a funcionalidade de um trabalho existente de Redução de mapa. O trabalho de MR leva cerca de 50 minutos todos os dias, mas o trabalho do Spark leva apenas 9 minutos! Isso é ótimo!

Quando olhei para o diretório de saída, notei que ele criou 1.020 arquivos de peça. O trabalho de MR utiliza apenas 20 redutores, portanto, cria apenas 20 arquivos. Precisamos reduzir o número de arquivos de saída; caso contrário, nosso espaço para nome ficaria cheio em pouco tempo.

Estou tentando descobrir como posso reduzir o número de arquivos de saída no Spark. Parece que 1.020 tarefas estão sendo acionadas e cada uma cria um arquivo de peça. Isso está correto? Eu tenho que mudar onível de paralelismo reduzir não. de tarefas, reduzindo assim o n. de arquivos de saída? Se sim, como faço para configurá-lo? Eu tenho medo de reduzir não. de tarefas atrasará esse processo - mas eu posso testar isso!