Suchergebnisse für Anfrage "apache-spark"

2 die antwort

Wie filtere ich Zeilen basierend darauf, ob sich ein Spaltenwert in einem Satz von Zeichenfolgen in einem Spark-DataFrame befindet?

Gibt es eine elegantere Methode zum Filtern anhand von Werten in einem String-Satz? def myFilter(actions: Set[String], myDF: DataFrame): DataFrame = { val containsAction = udf((action: String) => { actions.contains(action) ...

2 die antwort

Wie kann man eine Speichervariable aus einer Aufgabe heraus drucken (scheint zu funktionieren, ohne die Wertemethode aufzurufen)?

Ich weiß, dass die Akkumulatorvariablen aus Sicht der Tasks nur schreibbar sind, wenn sie in Worker-Knoten ausgeführt werden. Ich habe dies getestet und festgestellt, dass ich den Akkumulatorwert in der Task ausdrucken kann. Hier initialisiere ...

10 die antwort

ie kann ich die Größe eines RDD finde

Ich habeRDD[Row], das in einem Repository eines Drittanbieters gespeichert werden muss. Dieses Drittanbieter-Repository akzeptiert jedoch maximal 5 MB in einem einzelnen Aufruf. So möchte ich eine Partition basierend auf der Größe der in RDD ...

TOP-Veröffentlichungen

8 die antwort

Spark MLLib Kmeans von DataFrame und wieder zurück

Ich möchte mit Spark (1.3.1) MLLib einen kmeans-Clustering-Algorithmus auf einen sehr großen Datensatz anwenden. Ich habe die Daten von einem HDFS mit einem hiveContext von Spark aufgerufen und möchte sie irgendwann wieder so einfügen - in ...

2 die antwort

Customize SparkContext using sparkConf.set (..) bei Verwendung von spark-shell

In Spark gibt es drei Hauptoptionen zum Festlegen der Optionen für dasSparkConf verwendet, um das @ zu erstellSparkContext: As Eigenschaften in der conf / spark-defaults.conf. B. die Zeile:spark.driver.memory 4gAls Argumente für Spark-Shell ...

2 die antwort

SparkContext in einem Begleitobjekt nicht serialisierbar

Ich versuche derzeit, eine Anwendung für maschinelles Lernen zu erweitern, die Scala und Spark verwendet. Ich verwende die Struktur eines früheren Projekts von Dieterich Lawson, das ich auf Github @ gefunden hab https: ...

2 die antwort

java.util.Date wird nicht unterstützt

Ich möchte schreibenRDD zuMYSQL, welcheRDD enthältjava.util.Date Art rdd.map(f=> FeatureData( f.get("name").toString, f.get("value").toString.toDouble, f.get("time").asInstanceOf[Date], f.get("period").toString)) .toDF()In diesemRDD der ...

8 die antwort

PySpark: Ein SchemaRDD einem SchemaRDD zuordnen

Ich lade eine Datei mit JSON-Objekten als PySparkSchemaRDD. Ich möchte die "Form" der Objekte ändern (im Grunde genommen reduziere ich sie) und dann in eine Hive-Tabelle einfügen. Das Problem, das ich habe, ist, dass das folgende ein @ ...

2 die antwort

Eine Liste als Schlüssel für PySparks reduByKey

Ich versuche, die Funktion reductByKey von pyspark für Daten des Formats @ aufzurufe(([a,b,c], 1), ([a,b,c], 1), ([a,d,b,e], 1), ... Es scheint, dass pyspark ein Array nicht als Schlüssel für den normalen Schlüssel akzeptiert. Die ...

2 die antwort

Wie registriere ich eine Funktion in sqlContext UDF in scala?

Ich habe eine Methode namens getAge (Zeitstempel: Long) und möchte diese als SQL-Funktion registrieren. Ich hab sqlContext.udf.register("getAge",getAge)Aber es sagt mir, ich brauche Argumente oder benutze danach _, ich habe versucht, _ zu ...