Spark: Nein. von Ausgabedateien

Ich habe ein Spark-Programm geschrieben, das die Funktionalität eines vorhandenen Map Reduce-Jobs nachahmt. Der MR-Job dauert jeden Tag ungefähr 50 Minuten, der Spark-Job jedoch nur 9 Minuten! Das ist großartig

Als ich mir das Ausgabeverzeichnis ansah, bemerkte ich, dass 1.020 Teiledateien erstellt wurden. Der MR-Job verwendet nur 20 Reduzierungen, sodass nur 20 Dateien erstellt werden. Wir müssen die Anzahl der Ausgabedateien reduzieren. sonst wäre unser Namespace in kürzester Zeit voll.

Ich versuche herauszufinden, wie ich die Anzahl der Ausgabedateien unter Spark reduzieren kann. Anscheinend werden 1.020 Aufgaben ausgelöst und jede erstellt eine Teiledatei. Ist das richtig? Muss ich das @ ändelevel of parallelism Nein zu schneiden. von Aufgaben dadurch reduziert keine. von Ausgabedateien? Wenn ja, wie stelle ich das ein? Ich habe Angst, nein. von Aufgaben wird diesen Prozess verlangsamen - aber ich kann das testen!

Antworten auf die Frage(1)

Ihre Antwort auf die Frage