Requisitos para convertir el marco de datos de Spark en el marco de datos de Pandas / R
Estoy ejecutando Spark en HADOop's YARN. ¿Cómo funciona esta conversión? ¿Se realiza un collect () antes de la conversión?
¿También necesito instalar Python y R en cada nodo esclavo para que la conversión funcione? Estoy luchando por encontrar documentación sobre esto.