Spark partitionBy viel langsamer als ohne
Ich habe das Schreiben getestet mit:
df.write.partitionBy("id", "name")
.mode(SaveMode.Append)
.parquet(filePath)
Allerdings, wenn ich die Partitionierung weglasse:
df.write
.mode(SaveMode.Append)
.parquet(filePath)
It führt 100x (!) Schneller aus.
Ist es normal, dass dasselbe Datenvolumen beim Partitionieren 100-mal länger schreibt?
Es gibt 10 und 3000 einzigartigeid
undname
Spaltenwerte jeweils. DasDataFrame
hat 10 zusätzliche Ganzzahlspalten.