Ленивый foreach на Spark RDD
У меня есть большой СДП строк (полученный из объединения несколькихsc.textFile(...))
.
Теперь я хочу найти заданную строку в этом СДР, и я хочу, чтобы поиск был остановлен, когда найдено «достаточно хорошее» совпадение.
Я мог бы дооснащитьforeach
, или жеfilter
, или жеmap
для этой цели, но все они будут проходить через каждый элемент в этом СДР, независимо от того, было ли достигнуто совпадение.
Есть ли способ замкнуть этот процесс и избежать повторения всего СДР?