Suchergebnisse für Anfrage "rdd"

Mein Ziel ist es, Objekte nach Zeitüberschneidungen zu gruppieren. Jedes Objekt in meinemrdd enthält einstart_time undend_time. Ich gehe das wahrscheinlich ineffizient an, aber ich plane, jedem Objekt eine Überlappungs-ID zuzuweisen, basierend ...

join apache-spark

2 die antwort

Wie kann ich eine große Festplatte effizient mit einer sehr großen Festplatte im Spark verbinden?

Ich habe zwei RDDs. Eine RDD liegt zwischen 5 und 10 Millionen Einträgen und die andere RDD zwischen 500 und 750 Millionen Einträgen. Irgendwann muss ich diese beiden RDDS mit einem gemeinsamen Schlüssel verbinden. val rddA = someData.rdd.map { ...

apache-spark python pyspark

2 die antwort

Eine Liste als Schlüssel für PySparks reduByKey

Ich versuche, die Funktion reductByKey von pyspark für Daten des Formats @ aufzurufe(([a,b,c], 1), ([a,b,c], 1), ([a,d,b,e], 1), ... Es scheint, dass pyspark ein Array nicht als Schlüssel für den normalen Schlüssel akzeptiert. Die ...

TOP-Veröffentlichungen

The In-Depth Guide on Video Streaming Protocols [for non-tech founders]

Wie erstellt man eine Krypto-Tauschbörse?

apache-spark scala

2 die antwort

Erklärung der Faltmethode des Funken RDD

Ich verwende Spark-1.4.0, das für Hadoop-2.4 (im lokalen Modus) vorgefertigt ist, um die Summe der Quadrate einer DoubleRDD zu berechnen. Mein Scala-Code sieht aus wie sc.parallelize(Array(2., 3.)).fold(0.0)((p, v) => p+v*v)nd es gab ...

apache-spark scala

2 die antwort

Nicht in der Lage, einen Akkumulator vom Typ String zu deklarieren

Ich versuche, eine Akkumulatorvariable vom Typ String in der Scala-Shell (Treiber) zu definieren, erhalte jedoch weiterhin den folgenden Fehler: - scala> val myacc = sc.accumulator("Test") <console>:21: error: could not find implicit value for ...

scala apache-spark

2 die antwort

Wie kann man eine Speichervariable aus einer Aufgabe heraus drucken (scheint zu funktionieren, ohne die Wertemethode aufzurufen)?

Ich weiß, dass die Akkumulatorvariablen aus Sicht der Tasks nur schreibbar sind, wenn sie in Worker-Knoten ausgeführt werden. Ich habe dies getestet und festgestellt, dass ich den Akkumulatorwert in der Task ausdrucken kann. Hier initialisiere ...

apache-spark-sql apache-spark scala apache-spark-mllib

2 die antwort

RDD zu LabeledPoint Konvertierung

Wenn ich eine RDD mit etwa 500 Spalten und 200 Millionen Zeilen habe undRDD.columns.indexOf("target", 0) zeigt anInt = 77 gibt an, dass sich meine abhängige Zielvariable unter der Spaltennummer 77 befindet. Ich habe jedoch nicht genügend ...

apache-spark cloudera-cdh

2 die antwort

Spark Cache RDD wird in der Spark History WebUI - Storage @ nicht angezei

Ich benutzeSpark-1.4.1 imCDH-5.4.4. Ich benutzerdd.cache() Funktion, aber es zeigt nichts inStorage tab aufSpark History WebUI Hat jemand die gleichen Probleme? Wie man es repariert

python apache-spark performance scala

2 die antwort

Spark Leistung für Scala vs Python

Ich bevorzuge Python gegenüber Scala. Da Spark jedoch ursprünglich in Scala geschrieben wurde, hatte ich aus offensichtlichen Gründen damit gerechnet, dass mein Code in Scala schneller ausgeführt wird als in der Python-Version. Mit dieser ...

apache-spark

2 die antwort

Wie erhalte ich Daten von einer bestimmten Partition in Spark RDD?

Ich möchte auf Daten von einer bestimmten Partition in Spark RDD zugreifen. Ich kann die Adresse einer Partition wie folgt erhalten: myRDD.partitions(0)Aber ich möchte Daten von @ erhaltmyRDD.partitions(0) partition. Ich habe die offizielle ...

Seite 2 von 10

123 4 5

Suchergebnisse für Anfrage "rdd"

PySpark - Zeitüberschneidung für Objekt in RDD

Wie kann ich eine große Festplatte effizient mit einer sehr großen Festplatte im Spark verbinden?

Eine Liste als Schlüssel für PySparks reduByKey

Beliebte Schlagwörter

TOP-Veröffentlichungen

Erklärung der Faltmethode des Funken RDD

Nicht in der Lage, einen Akkumulator vom Typ String zu deklarieren

Wie kann man eine Speichervariable aus einer Aufgabe heraus drucken (scheint zu funktionieren, ohne die Wertemethode aufzurufen)?

RDD zu LabeledPoint Konvertierung

Spark Cache RDD wird in der Spark History WebUI - Storage @ nicht angezei

Spark Leistung für Scala vs Python

Wie erhalte ich Daten von einer bestimmten Partition in Spark RDD?

Du bist sehr aktiv! Es ist großartig!

Suchergebnisse für Anfrage "rdd"

Beliebte Schlagwörter

TOP-Veröffentlichungen