PySpark: Einzelne Datei beim Schreiben ausspucken anstatt mehrere Teiledateien

Gibt es eine Möglichkeit zu verhindern, dass PySpark beim Schreiben eines DataFrame in eine JSON-Datei mehrere kleine Dateien erstellt?

Wenn ich laufe:

 df.write.format('json').save('myfile.json')

ode

df1.write.json('myfile.json')

it erstellt den Ordner mit dem Namenmyfile und darin finde ich mehrere kleine Dateien mit dem Namenpart-***, der HDFS-Weg. Ist es überhaupt möglich, dass es stattdessen eine einzelne Datei ausspuckt?

Antworten auf die Frage(6)

Ihre Antwort auf die Frage