Wie funktioniert die Partitionierung in Spark?
Ich versuche zu verstehen, wie in Apache Spark partitioniert wird. Könnt ihr bitte helfen?
Hier ist das Szenario:
ein Master und zwei Knoten mit je 1 Kerneine Dateicount.txt
von 10 MB in der GrößeWie viele Partitionen werden von den folgenden erstellt?
rdd = sc.textFile(count.txt)
Hat die Größe der Datei Einfluss auf die Anzahl der Partitionen?