Suchergebnisse für Anfrage "rdd"

Wie kann ich den Median eines @ findeRDD von Ganzzahlen mit einer verteilten Methode, IPython und Spark? DasRDD ist ungefähr 700.000 Elemente und daher zu groß, um den Median zu sammeln und zu finden. Diese Frage ähnelt dieser Frage. Die Antwort ...

join apache-spark

2 die antwort

Wie kann ich eine große Festplatte effizient mit einer sehr großen Festplatte im Spark verbinden?

Ich habe zwei RDDs. Eine RDD liegt zwischen 5 und 10 Millionen Einträgen und die andere RDD zwischen 500 und 750 Millionen Einträgen. Irgendwann muss ich diese beiden RDDS mit einem gemeinsamen Schlüssel verbinden. val rddA = someData.rdd.map { ...

apache-spark scala

2 die antwort

Erklärung der Faltmethode des Funken RDD

Ich verwende Spark-1.4.0, das für Hadoop-2.4 (im lokalen Modus) vorgefertigt ist, um die Summe der Quadrate einer DoubleRDD zu berechnen. Mein Scala-Code sieht aus wie sc.parallelize(Array(2., 3.)).fold(0.0)((p, v) => p+v*v)nd es gab ...

TOP-Veröffentlichungen

The In-Depth Guide on Video Streaming Protocols [for non-tech founders]

Wie erstellt man eine Krypto-Tauschbörse?

apache-spark scala

2 die antwort

Nicht in der Lage, einen Akkumulator vom Typ String zu deklarieren

Ich versuche, eine Akkumulatorvariable vom Typ String in der Scala-Shell (Treiber) zu definieren, erhalte jedoch weiterhin den folgenden Fehler: - scala> val myacc = sc.accumulator("Test") <console>:21: error: could not find implicit value for ...

hive apache-spark-sql pyspark apache-spark

8 die antwort

PySpark: Ein SchemaRDD einem SchemaRDD zuordnen

Ich lade eine Datei mit JSON-Objekten als PySparkSchemaRDD. Ich möchte die "Form" der Objekte ändern (im Grunde genommen reduziere ich sie) und dann in eine Hive-Tabelle einfügen. Das Problem, das ich habe, ist, dass das folgende ein @ ...

scala apache-spark

2 die antwort

Wie kann man eine Speichervariable aus einer Aufgabe heraus drucken (scheint zu funktionieren, ohne die Wertemethode aufzurufen)?

Ich weiß, dass die Akkumulatorvariablen aus Sicht der Tasks nur schreibbar sind, wenn sie in Worker-Knoten ausgeführt werden. Ich habe dies getestet und festgestellt, dass ich den Akkumulatorwert in der Task ausdrucken kann. Hier initialisiere ...

apache-spark python pyspark

2 die antwort

Eine Liste als Schlüssel für PySparks reduByKey

Ich versuche, die Funktion reductByKey von pyspark für Daten des Formats @ aufzurufe(([a,b,c], 1), ([a,b,c], 1), ([a,d,b,e], 1), ... Es scheint, dass pyspark ein Array nicht als Schlüssel für den normalen Schlüssel akzeptiert. Die ...

apache-spark lazy-sequences

4 die antwort

Lazy foreach auf einem Spark RDD

Ich habe eine große RDD von Strings (erhalten durch eine Vereinigung von mehrerensc.textFile(...)). Ich möchte jetzt nach einer bestimmten Zeichenfolge in dieser RDD suchen und die Suche stoppen, wenn eine "gut genug" Übereinstimmung gefunden ...

apache-spark-sql apache-spark scala apache-spark-mllib

2 die antwort

RDD zu LabeledPoint Konvertierung

Wenn ich eine RDD mit etwa 500 Spalten und 200 Millionen Zeilen habe undRDD.columns.indexOf("target", 0) zeigt anInt = 77 gibt an, dass sich meine abhängige Zielvariable unter der Spaltennummer 77 befindet. Ich habe jedoch nicht genügend ...

apache-spark distributed-computing

18 die antwort

Spark - repartition () vs coalesce ()

Nach Learning Spark Beachten Sie, dass das Neupartitionieren Ihrer Daten ein ziemlich teurer Vorgang ist. Spark hat auch eine optimierte Version von repartition () namens coalesce (), mit der das Verschieben von Daten vermieden werden kann, ...

Seite 4 von 10

2 345 6

Suchergebnisse für Anfrage "rdd"

Wie finde ich Median und Quantile mit Spark

Wie kann ich eine große Festplatte effizient mit einer sehr großen Festplatte im Spark verbinden?

Erklärung der Faltmethode des Funken RDD

Beliebte Schlagwörter

TOP-Veröffentlichungen

Nicht in der Lage, einen Akkumulator vom Typ String zu deklarieren

PySpark: Ein SchemaRDD einem SchemaRDD zuordnen

Wie kann man eine Speichervariable aus einer Aufgabe heraus drucken (scheint zu funktionieren, ohne die Wertemethode aufzurufen)?

Eine Liste als Schlüssel für PySparks reduByKey

Lazy foreach auf einem Spark RDD

RDD zu LabeledPoint Konvertierung

Spark - repartition () vs coalesce ()

Du bist sehr aktiv! Es ist großartig!

Suchergebnisse für Anfrage "rdd"

Beliebte Schlagwörter

TOP-Veröffentlichungen