Suchergebnisse für Anfrage "rdd"

8 die antwort

Wie finde ich Median und Quantile mit Spark

Wie kann ich den Median eines @ findeRDD von Ganzzahlen mit einer verteilten Methode, IPython und Spark? DasRDD ist ungefähr 700.000 Elemente und daher zu groß, um den Median zu sammeln und zu finden. Diese Frage ähnelt dieser Frage. Die Antwort ...

2 die antwort

Wie kann ich eine große Festplatte effizient mit einer sehr großen Festplatte im Spark verbinden?

Ich habe zwei RDDs. Eine RDD liegt zwischen 5 und 10 Millionen Einträgen und die andere RDD zwischen 500 und 750 Millionen Einträgen. Irgendwann muss ich diese beiden RDDS mit einem gemeinsamen Schlüssel verbinden. val rddA = someData.rdd.map { ...

2 die antwort

Erklärung der Faltmethode des Funken RDD

Ich verwende Spark-1.4.0, das für Hadoop-2.4 (im lokalen Modus) vorgefertigt ist, um die Summe der Quadrate einer DoubleRDD zu berechnen. Mein Scala-Code sieht aus wie sc.parallelize(Array(2., 3.)).fold(0.0)((p, v) => p+v*v)nd es gab ...

TOP-Veröffentlichungen

2 die antwort

Nicht in der Lage, einen Akkumulator vom Typ String zu deklarieren

Ich versuche, eine Akkumulatorvariable vom Typ String in der Scala-Shell (Treiber) zu definieren, erhalte jedoch weiterhin den folgenden Fehler: - scala> val myacc = sc.accumulator("Test") <console>:21: error: could not find implicit value for ...

8 die antwort

PySpark: Ein SchemaRDD einem SchemaRDD zuordnen

Ich lade eine Datei mit JSON-Objekten als PySparkSchemaRDD. Ich möchte die "Form" der Objekte ändern (im Grunde genommen reduziere ich sie) und dann in eine Hive-Tabelle einfügen. Das Problem, das ich habe, ist, dass das folgende ein @ ...

2 die antwort

Wie kann man eine Speichervariable aus einer Aufgabe heraus drucken (scheint zu funktionieren, ohne die Wertemethode aufzurufen)?

Ich weiß, dass die Akkumulatorvariablen aus Sicht der Tasks nur schreibbar sind, wenn sie in Worker-Knoten ausgeführt werden. Ich habe dies getestet und festgestellt, dass ich den Akkumulatorwert in der Task ausdrucken kann. Hier initialisiere ...

2 die antwort

Eine Liste als Schlüssel für PySparks reduByKey

Ich versuche, die Funktion reductByKey von pyspark für Daten des Formats @ aufzurufe(([a,b,c], 1), ([a,b,c], 1), ([a,d,b,e], 1), ... Es scheint, dass pyspark ein Array nicht als Schlüssel für den normalen Schlüssel akzeptiert. Die ...

4 die antwort

Lazy foreach auf einem Spark RDD

Ich habe eine große RDD von Strings (erhalten durch eine Vereinigung von mehrerensc.textFile(...)). Ich möchte jetzt nach einer bestimmten Zeichenfolge in dieser RDD suchen und die Suche stoppen, wenn eine "gut genug" Übereinstimmung gefunden ...

2 die antwort

RDD zu LabeledPoint Konvertierung

Wenn ich eine RDD mit etwa 500 Spalten und 200 Millionen Zeilen habe undRDD.columns.indexOf("target", 0) zeigt anInt = 77 gibt an, dass sich meine abhängige Zielvariable unter der Spaltennummer 77 befindet. Ich habe jedoch nicht genügend ...

18 die antwort

Spark - repartition () vs coalesce ()

Nach Learning Spark Beachten Sie, dass das Neupartitionieren Ihrer Daten ein ziemlich teurer Vorgang ist. Spark hat auch eine optimierte Version von repartition () namens coalesce (), mit der das Verschieben von Daten vermieden werden kann, ...