PySpark: Einzelne Datei beim Schreiben ausspucken anstatt mehrere Teiledateien
Gibt es eine Möglichkeit zu verhindern, dass PySpark beim Schreiben eines DataFrame in eine JSON-Datei mehrere kleine Dateien erstellt?
Wenn ich laufe:
df.write.format('json').save('myfile.json')
ode
df1.write.json('myfile.json')
it erstellt den Ordner mit dem Namenmyfile
und darin finde ich mehrere kleine Dateien mit dem Namenpart-***
, der HDFS-Weg. Ist es überhaupt möglich, dass es stattdessen eine einzelne Datei ausspuckt?