Almacenamiento en caché en Spark

Question

Mar 30, 2016, 11:58 AM

Almacenamiento en caché en Spark

Se define una función para transformar un RDD. Por lo tanto, la función se llama una vez para cada elemento en el RDD.

La función necesita llamar a un servicio web externo para buscar datos de referencia, pasando como datos de parámetros del elemento actual en el RDD.

Dos preguntas:

¿Hay algún problema con la emisión de una llamada de servicio web dentro de Spark?

Los datos del servicio web deben almacenarse en caché. ¿Cuál es la mejor manera de mantener (y posteriormente hacer referencia) los datos en caché? La forma más sencilla sería mantener el caché en una colección con la clase Scala que contiene la función que se pasa al RDD. ¿Sería esto eficiente, o hay un mejor enfoque para el almacenamiento en caché en Spark?

Gracias