Как вы выполняете блокировку ввода-вывода в работе Apache Spark?
Что если при прохождении RDD мне нужно вычислить значения в наборе данных, вызвав внешнюю (блокирующую) службу? Как вы думаете, чего можно достичь?
значения val:Future[RDD[Double]] = Future sequence tasks
Я пытался создать список фьючерсов, но поскольку идентификатор RDD не является Traversable, Future.sequence не подходит.
Просто интересно, была ли у кого такая проблема, и как вы ее решили? Я пытаюсь добиться параллелизма на одном рабочем узле, чтобы я мог вызвать эту внешнюю службу3000 раз ввторой.
Возможно, есть другое решение, более подходящее для искры, например, наличие нескольких рабочих узлов на одном хосте.
Интересно узнать, как вы справляетесь с таким вызовом? Благодарю.