Spark braucht HDFS

Hallo kann mir jemand erklären, braucht Apache 'Spark Standalone' HDFS?

Wenn erforderlich, wie Spark die HDFS-Blockgröße während der Ausführung der Spark-Anwendung verwendet. Ich meine, ich versuche zu verstehen, welche Rolle HDFS während der Ausführung der Spark-Anwendung spielen wird.

ie @Spark-Dokumentation besagt, dass die Verarbeitungsparallelität über RDD-Partitionen und die Executors / Cores gesteuert wird.

ann mir bitte jemand helfen, das zu verstehe

Antworten auf die Frage(2)

Ihre Antwort auf die Frage