Rastreamento da Web distribuído usando o Apache Spark - é possível?

Uma pergunta interessante foi feita quando participei de uma entrevista sobre mineração na web. A questão era: é possível rastrear os sites usando o Apache Spark?

Imaginei que isso era possível, porque suporta a capacidade de processamento distribuído do Spark. Após a entrevista, procurei por isso, mas não encontrei nenhuma resposta interessante. Isso é possível com o Spark?

questionAnswers(5)

yourAnswerToTheQuestion