¿Hasta dónde llegará el caché Spark RDD?
Digamos que tengo tresRDD función de transformación llamadardd1:
def rdd2 = rdd1.f1
def rdd3 = rdd2.f2
def rdd4 = rdd3.f3
Ahora quiero guardar en cachérdd4
entonces llamordd4.cache()
.
Mi pregunta:
Será solo el resultado de la acción enrdd4
ser almacenado en caché o será cadaRDD encimardd4
ser almacenado en caché? Digamos que quiero almacenar en caché ambosrdd3
yrdd4
, ¿necesito guardarlos en caché por separado?