PySpark: Einzelne Datei beim Schreiben ausspucken anstatt mehrere Teiledateien

Question

Mar 22, 2016, 07:09 PM

python amazon-s3 apache-spark pyspark apache-spark-sql

PySpark: Einzelne Datei beim Schreiben ausspucken anstatt mehrere Teiledateien

Gibt es eine Möglichkeit zu verhindern, dass PySpark beim Schreiben eines DataFrame in eine JSON-Datei mehrere kleine Dateien erstellt?

Wenn ich laufe:

 df.write.format('json').save('myfile.json')

ode

df1.write.json('myfile.json')

it erstellt den Ordner mit dem Namenmyfile und darin finde ich mehrere kleine Dateien mit dem Namenpart-***, der HDFS-Weg. Ist es überhaupt möglich, dass es stattdessen eine einzelne Datei ausspuckt?

Antworten auf die Frage(6)

Top Fragen

0 die antwort

Wie verwende ich Redux, um das JWT-Token zu aktualisieren?

0 die antwort

So verhindern Sie, dass IFRAME das Fenster der obersten Ebene umleitet

0 die antwort

C ++ Template und Inline

0 die antwort

MS Access 2007: Datumsabfrage

0 die antwort

Was ist mit undefinierten Symbolen in einer gemeinsam genutzten Bibliothek oder Dylib zu tun?

Du bist sehr aktiv! Es ist großartig!

PySpark: Einzelne Datei beim Schreiben ausspucken anstatt mehrere Teiledateien

Antworten auf die Frage(6)

Ihre Antwort auf die Frage

Top Fragen