Até onde vai o cache do Spark RDD?
Diga que tenho trêsRDD função de transformação chamadardd1:
def rdd2 = rdd1.f1
def rdd3 = rdd2.f2
def rdd4 = rdd3.f3
Agora eu quero colocar em cacherdd4
então eu ligordd4.cache()
.
Minha pergunta:
Somente o resultado da ação emrdd4
em cache ou todos osRDD acimardd4
ser armazenado em cache? Digamos que eu queira armazenar em cache os doisrdd3
erdd4
, preciso armazená-los em cache separadamente?