Suchergebnisse für Anfrage "rdd"

2 die antwort

PySpark - Zeitüberschneidung für Objekt in RDD

Mein Ziel ist es, Objekte nach Zeitüberschneidungen zu gruppieren. Jedes Objekt in meinemrdd enthält einstart_time undend_time. Ich gehe das wahrscheinlich ineffizient an, aber ich plane, jedem Objekt eine Überlappungs-ID zuzuweisen, basierend ...

2 die antwort

Wie kann ich eine große Festplatte effizient mit einer sehr großen Festplatte im Spark verbinden?

Ich habe zwei RDDs. Eine RDD liegt zwischen 5 und 10 Millionen Einträgen und die andere RDD zwischen 500 und 750 Millionen Einträgen. Irgendwann muss ich diese beiden RDDS mit einem gemeinsamen Schlüssel verbinden. val rddA = someData.rdd.map { ...

2 die antwort

Eine Liste als Schlüssel für PySparks reduByKey

Ich versuche, die Funktion reductByKey von pyspark für Daten des Formats @ aufzurufe(([a,b,c], 1), ([a,b,c], 1), ([a,d,b,e], 1), ... Es scheint, dass pyspark ein Array nicht als Schlüssel für den normalen Schlüssel akzeptiert. Die ...

TOP-Veröffentlichungen

2 die antwort

Erklärung der Faltmethode des Funken RDD

Ich verwende Spark-1.4.0, das für Hadoop-2.4 (im lokalen Modus) vorgefertigt ist, um die Summe der Quadrate einer DoubleRDD zu berechnen. Mein Scala-Code sieht aus wie sc.parallelize(Array(2., 3.)).fold(0.0)((p, v) => p+v*v)nd es gab ...

2 die antwort

Nicht in der Lage, einen Akkumulator vom Typ String zu deklarieren

Ich versuche, eine Akkumulatorvariable vom Typ String in der Scala-Shell (Treiber) zu definieren, erhalte jedoch weiterhin den folgenden Fehler: - scala> val myacc = sc.accumulator("Test") <console>:21: error: could not find implicit value for ...

2 die antwort

Wie kann man eine Speichervariable aus einer Aufgabe heraus drucken (scheint zu funktionieren, ohne die Wertemethode aufzurufen)?

Ich weiß, dass die Akkumulatorvariablen aus Sicht der Tasks nur schreibbar sind, wenn sie in Worker-Knoten ausgeführt werden. Ich habe dies getestet und festgestellt, dass ich den Akkumulatorwert in der Task ausdrucken kann. Hier initialisiere ...

2 die antwort

RDD zu LabeledPoint Konvertierung

Wenn ich eine RDD mit etwa 500 Spalten und 200 Millionen Zeilen habe undRDD.columns.indexOf("target", 0) zeigt anInt = 77 gibt an, dass sich meine abhängige Zielvariable unter der Spaltennummer 77 befindet. Ich habe jedoch nicht genügend ...

2 die antwort

Spark Cache RDD wird in der Spark History WebUI - Storage @ nicht angezei

Ich benutzeSpark-1.4.1 imCDH-5.4.4. Ich benutzerdd.cache() Funktion, aber es zeigt nichts inStorage tab aufSpark History WebUI Hat jemand die gleichen Probleme? Wie man es repariert

2 die antwort

Spark Leistung für Scala vs Python

Ich bevorzuge Python gegenüber Scala. Da Spark jedoch ursprünglich in Scala geschrieben wurde, hatte ich aus offensichtlichen Gründen damit gerechnet, dass mein Code in Scala schneller ausgeführt wird als in der Python-Version. Mit dieser ...

2 die antwort

Wie erhalte ich Daten von einer bestimmten Partition in Spark RDD?

Ich möchte auf Daten von einer bestimmten Partition in Spark RDD zugreifen. Ich kann die Adresse einer Partition wie folgt erhalten: myRDD.partitions(0)Aber ich möchte Daten von @ erhaltmyRDD.partitions(0) partition. Ich habe die offizielle ...