Wie weit geht der Spark-RDD-Cache?
Sag ich habe drei RDD Transformationsfunktion aufgerufen auf rdd1:
def rdd2 = rdd1.f1
def rdd3 = rdd2.f2
def rdd4 = rdd3.f3
Jetzt möchte ich @ cachrdd4
, also rufe ichrdd4.cache()
.
Meine Frage
Wird nur das Ergebnis der Aktion aufrdd4
zwischengespeichert werden oder wird jeder RDD überrdd4
zwischengespeichert werden? Angenommen, ich möchte beide cachenrdd3
undrdd4
, muss ich sie separat zwischenspeichern?