Plano de pyspark en pandas
¿Hay una operación en pandas que haga lo mismo quemapa plano en pyspark?
Ejemplo de flatMap:
>>> rdd = sc.parallelize([2, 3, 4])
>>> sorted(rdd.flatMap(lambda x: range(1, x)).collect())
[1, 1, 1, 2, 2, 3]
Hasta ahora puedo pensar enapply
seguido poritertools.chain
, pero me pregunto si hay una solución de un solo paso.