Spark usando python: cómo resolver Stage x contiene una tarea de gran tamaño (xxx KB). El tamaño máximo recomendado de la tarea es de 100 KB.
Acabo de crear una lista de Python derange(1,100000)
.
Utilizando SparkContext se realizaron los siguientes pasos:
a = sc.parallelize([i for i in range(1, 100000)])
b = sc.parallelize([i for i in range(1, 100000)])
c = a.zip(b)
>>> [(1, 1), (2, 2), -----]
sum = sc.accumulator(0)
c.foreach(lambda (x, y): life.add((y-x)))
Lo que da la siguiente advertencia:
ARN TaskSetManager: la etapa 3 contiene una tarea de gran tamaño (4644 KB). El tamaño máximo de tarea recomendado es de 100 KB.
¿Cómo resolver esta advertencia? ¿Hay alguna forma de manejar el tamaño? Y también, ¿afectará la complejidad del tiempo en Big Data?