Spark braucht HDFS
Hallo kann mir jemand erklären, braucht Apache 'Spark Standalone' HDFS?
Wenn erforderlich, wie Spark die HDFS-Blockgröße während der Ausführung der Spark-Anwendung verwendet. Ich meine, ich versuche zu verstehen, welche Rolle HDFS während der Ausführung der Spark-Anwendung spielen wird.
ie @Spark-Dokumentation besagt, dass die Verarbeitungsparallelität über RDD-Partitionen und die Executors / Cores gesteuert wird.
ann mir bitte jemand helfen, das zu verstehe