Как вы выполняете блокировку ввода-вывода в работе Apache Spark?

Что если при прохождении RDD мне нужно вычислить значения в наборе данных, вызвав внешнюю (блокирующую) службу? Как вы думаете, чего можно достичь?

значения val:Future[RDD[Double]] = Future sequence tasks

Я пытался создать список фьючерсов, но поскольку идентификатор RDD не является Traversable, Future.sequence не подходит.

Просто интересно, была ли у кого такая проблема, и как вы ее решили? Я пытаюсь добиться параллелизма на одном рабочем узле, чтобы я мог вызвать эту внешнюю службу3000 раз ввторой.

Возможно, есть другое решение, более подходящее для искры, например, наличие нескольких рабочих узлов на одном хосте.

Интересно узнать, как вы справляетесь с таким вызовом? Благодарю.

Ответы на вопрос(2)

Ваш ответ на вопрос