¿Cómo funciona la función mapPartitions de pyspark?
Así que estoy tratando de aprender Spark usando Python (Pyspark). Quiero saber como funciona la funcionmapPartitions
trabajo. Esa es la entrada que toma y la salida que da. No pude encontrar ningún ejemplo adecuado de Internet. Digamos que tengo un objeto RDD que contiene listas, como a continuación.
[ [1, 2, 3], [3, 2, 4], [5, 2, 7] ]
Y quiero eliminar el elemento 2 de todas las listas, ¿cómo podría lograrlo usandomapPartitions
.