Спарк раздел намного медленнее чем без него
Я проверил написание с:
df.write.partitionBy("id", "name")
.mode(SaveMode.Append)
.parquet(filePath)
Однако, если я пропущу разделение:
df.write
.mode(SaveMode.Append)
.parquet(filePath)
Он выполняется в 100 раз (!) Быстрее.
Это нормально для того же объема данных, чтобы записать в 100 раз больше при разделении?
Есть 10 и 3000 уникальныхid
а такжеname
значения столбца соответственно.DataFrame
имеет 10 дополнительных целочисленных столбцов.