¿Cómo se realiza el bloqueo de IO en el trabajo de apache spark?

Question

Sep 08, 2014, 03:34 PM

¿Cómo se realiza el bloqueo de IO en el trabajo de apache spark?

¿Qué sucede si, cuando atravieso RDD, necesito calcular valores en el conjunto de datos llamando al servicio externo (bloqueo)? ¿Cómo crees que se podría lograr?

valores val:Future[RDD[Double]] = Future sequence tasks

Intenté crear una lista de Futuros, pero como el ID de RDD no es Traversable, Future.sequence no es adecuado.

Me pregunto si alguien tuvo ese problema y cómo lo resolvió. Lo que intento lograr es lograr un paralelismo en un solo nodo de trabajo, para poder llamar a ese servicio externo3000 veces porsegundo.

Probablemente, hay otra solución, más adecuada para la chispa, como tener múltiples nodos de trabajo en un solo host.

Es interesante saber, ¿cómo afrontas este desafío? Gracias.