Spezifische Partitionen in der Spark-Dataframe-Schreibmethode überschreiben
Ich möchte bestimmte Partitionen überschreiben, anstatt alle in Spark. Ich versuche den folgenden Befehl:
df.write.orc('maprfs:///hdfs-base-path','overwrite',partitionBy='col4')
wobei df ein Datenrahmen ist, dessen inkrementelle Daten überschrieben werden sollen.
hdfs-base-path enthält die Stammdaten.
Wenn ich den obigen Befehl versuche, werden alle Partitionen gelöscht und die in df vorhandenen in den hdfs-Pfad eingefügt.
Was meine Anforderung ist, nur die Partitionen zu überschreiben, die in df am angegebenen hdfs-Pfad vorhanden sind. Kann mir bitte jemand dabei helfen?