Necessidade Spark do HDFS
Oi alguém pode me explicar, o Apache 'Spark Standalone' precisa de HDFS?
Se necessário, como o Spark usa o tamanho do bloco HDFS durante a execução do aplicativo Spark. Quero dizer, estou tentando entender qual será a função do HDFS durante a execução do aplicativo Spark.
A documentação do Spark diz que o paralelismo de processamento é controlado pelas partições RDD e pelos executores / núcleos.
Alguém por favor pode me ajudar a entender.