спасибо за любую помощь в решении этой проблемы

аюсь использовать искровое разделение. Я пытался сделать что-то вроде

data.write.partitionBy("key").parquet("/location")

Проблема здесь в каждом разделе создает огромное количество паркетных файлов, что приводит к медленному чтению, если я пытаюсь читать из корневого каталога.

Чтобы избежать этого я пытался

data.coalese(numPart).write.partitionBy("key").parquet("/location")

Это, однако, создает количество паркетных файлов numPart в каждом разделе. Теперь размер моего раздела другой. Так что в идеале я хотел бы иметь отдельную объединение на раздел. Это, однако, не выглядит легким делом. Мне нужно посетить все разделы, объединить к определенному номеру и хранить в отдельном месте.

Как мне использовать разбиение, чтобы избежать много файлов после записи?

Ответы на вопрос(0)

Ваш ответ на вопрос