Partición Spark: mucho más lenta que sin ella
Probé escribiendo con:
df.write.partitionBy("id", "name")
.mode(SaveMode.Append)
.parquet(filePath)
Sin embargo, si dejo de lado la partición:
df.write
.mode(SaveMode.Append)
.parquet(filePath)
Se ejecuta 100x (!) Más rápido.
¿Es normal que la misma cantidad de datos demore 100 veces más en escribirse al particionar?
Hay 10 y 3000 únicosid
yname
valores de columna respectivamente. losDataFrame
tiene 10 columnas enteras adicionales.