Spark usando python: cómo resolver Stage x contiene una tarea de gran tamaño (xxx KB). El tamaño máximo recomendado de la tarea es de 100 KB.

Acabo de crear una lista de Python derange(1,100000).

Utilizando SparkContext se realizaron los siguientes pasos:

a = sc.parallelize([i for i in range(1, 100000)])
b = sc.parallelize([i for i in range(1, 100000)])

c = a.zip(b)

>>> [(1, 1), (2, 2), -----]

sum  = sc.accumulator(0)

c.foreach(lambda (x, y): life.add((y-x)))

Lo que da la siguiente advertencia:

ARN TaskSetManager: la etapa 3 contiene una tarea de gran tamaño (4644 KB). El tamaño máximo de tarea recomendado es de 100 KB.

¿Cómo resolver esta advertencia? ¿Hay alguna forma de manejar el tamaño? Y también, ¿afectará la complejidad del tiempo en Big Data?

Respuestas a la pregunta(3)

Su respuesta a la pregunta