Spark partitionBy viel langsamer als ohne

Ich habe das Schreiben getestet mit:

 df.write.partitionBy("id", "name")
    .mode(SaveMode.Append)
    .parquet(filePath)

Allerdings, wenn ich die Partitionierung weglasse:

 df.write
    .mode(SaveMode.Append)
    .parquet(filePath)

It führt 100x (!) Schneller aus.

Ist es normal, dass dasselbe Datenvolumen beim Partitionieren 100-mal länger schreibt?

Es gibt 10 und 3000 einzigartigeid undname Spaltenwerte jeweils. DasDataFrame hat 10 zusätzliche Ganzzahlspalten.

Antworten auf die Frage(2)

Ihre Antwort auf die Frage