Spark partitionBy viel langsamer als ohne

Question

Oct 02, 2015, 01:13 AM

Ich habe das Schreiben getestet mit:

 df.write.partitionBy("id", "name")
    .mode(SaveMode.Append)
    .parquet(filePath)

Allerdings, wenn ich die Partitionierung weglasse:

 df.write
    .mode(SaveMode.Append)
    .parquet(filePath)

It führt 100x (!) Schneller aus.

Ist es normal, dass dasselbe Datenvolumen beim Partitionieren 100-mal länger schreibt?

Es gibt 10 und 3000 einzigartigeid undname Spaltenwerte jeweils. DasDataFrame hat 10 zusätzliche Ganzzahlspalten.

Antworten auf die Frage(2)

Wie erhalte ich den aktuellen BuildType in der Android Gradle-Konfiguration?

Bedingter Sprung zur Registrierung

Verknüpfen Sie die Problemnummer auf GitHub in einer Commit-Nachricht

Wie formatiere ich diese Datumszeichenfolge, damit Google Scripts sie erkennt?

Wie soll ich Hibernate Mapping beim Umgang mit riesigen Datentabellen verwenden?