Spark Vereinigung mehrerer RDDs

Question

Nov 16, 2015, 09:25 PM

In meinem Schweinecode mache ich das:

all_combined = Union relation1, relation2, 
    relation3, relation4, relation5, relation 6.

Ich möchte dasselbe mit spark machen. Allerdings sehe ich leider, dass ich es paarweise weiter machen muss:

first = rdd1.union(rdd2)
second = first.union(rdd3)
third = second.union(rdd4)
# .... and so on

Ist da ein Gewerkschaftsoperator, mit dem ich mehrere Festplatten gleichzeitig bearbeiten kann?

z.B.union(rdd1, rdd2,rdd3, rdd4, rdd5, rdd6)

Es ist eine Frage der Bequemlichkeit.

Antworten auf die Frage(4)

Wenn ein nicht blockierendes send () nur Teildaten überträgt, können wir davon ausgehen, dass es beim nächsten Aufruf EWOULDBLOCK zurückgibt?

Haben unterschiedliche Funktionen unterschiedliche Adressen?

Warum kann PySpark py4j.java_gateway nicht finden?

Cassandra: Die angegebene Stapelgröße ist zu klein. Geben Sie mindestens 228 KB an

z3 existentielle Theorie der Realitäten