спасибо за любую помощь в решении этой проблемы
аюсь использовать искровое разделение. Я пытался сделать что-то вроде
data.write.partitionBy("key").parquet("/location")
Проблема здесь в каждом разделе создает огромное количество паркетных файлов, что приводит к медленному чтению, если я пытаюсь читать из корневого каталога.
Чтобы избежать этого я пытался
data.coalese(numPart).write.partitionBy("key").parquet("/location")
Это, однако, создает количество паркетных файлов numPart в каждом разделе. Теперь размер моего раздела другой. Так что в идеале я хотел бы иметь отдельную объединение на раздел. Это, однако, не выглядит легким делом. Мне нужно посетить все разделы, объединить к определенному номеру и хранить в отдельном месте.
Как мне использовать разбиение, чтобы избежать много файлов после записи?