pyspark: объект PipelinedRDD не повторяется
Я получаю эту ошибку, но я не знаю почему. В основном я ошибаюсь из этого кода:
a = data.mapPartitions(helper(locations))
где данные - это СДР, а мой помощник определен как:
def helper(iterator, locations):
for x in iterator:
c = locations[x]
yield c
(location - это просто массив точек данных) Я не вижу, в чем проблема, но я также не самый лучший в pyspark, поэтому кто-то может сказать мне, почему я получаю, что объект PipelinedRDD не повторяется из этого кода?