Suchergebnisse für Anfrage "apache-spark"

6 die antwort

SparkSQL: Wie gehe ich mit Nullwerten in einer benutzerdefinierten Funktion um?

Gegeben Tabelle 1 mit einer Spalte "x" vom Typ String. Ich möchte Tabelle 2 mit einer Spalte "y" erstellen, die eine ganzzahlige Darstellung der in "x" angegebenen Datumszeichenfolgen ist. Wesentlic soll @ behaltnull Werte in Spalte ...

6 die antwort

Spark und SparkSQL: Wie kann man die Fensterfunktion imitieren?

BeschreibunGab einen Datenrahmendf id | date --------------- 1 | 2015-09-01 2 | 2015-09-01 1 | 2015-09-03 1 | 2015-09-04 2 | 2015-09-04Ich möchte einen laufenden Zähler oder Index erstellen, gruppiert mit der gleichen ID undsortiert nach Datum ...

8 die antwort

Was bedeutet setMaster `local [*]` in spark?

Ich habe einen Code gefunden, mit dem ich den Spark lokal starten kann: val conf = new SparkConf().setAppName("test").setMaster("local[*]") val ctx = new SparkContext(conf)Was bewirkt das[*] bedeuten

TOP-Veröffentlichungen

10 die antwort

DataFrame Join-Optimierung - Broadcast Hash Join

Ich versuche, zwei DataFrames effektiv zu verbinden, von denen einer groß und der andere etwas kleiner ist. Gibt es eine Möglichkeit, all dieses Mischen zu vermeiden? Ich kann nicht @ setzautoBroadCastJoinThreshold, weil es nur Ganzzahlen ...

4 die antwort

Wird es ein Szenario geben, in dem Spark-RDDs die Unveränderlichkeit nicht erfüllen ?

Spark RDDs sind unveränderlich, fehlertolerant und belastbar. Erfüllen RDDs die Unveränderlichkeit in allen Szenarien? Oder gibt es einen Fall, in dem RDD die Unveränderlichkeit möglicherweise nicht befriedigt, sei es im Streaming oder im Core?

2 die antwort

Fehler beim Ausführen eines Jobs auf Spark 1.4.0 mit Jackson-Modul mit ScalaObjectMapper

Ich führe einen Spark-Job aus, der in Scala 2.10.4 geschrieben wurde und auf einem Spark 1.4.0-Cluster (basierend auf HDFS und verwaltet mit YARN) und mit Jackson-Modulen der Version 2.6.1 auf dem Maven-Repository ausgeführt wird. Wenn der Code ...

2 die antwort

Wie definiere ich ein Schema für einen benutzerdefinierten Typ in Spark SQL?

Der folgende Beispielcode versucht, einige Fallobjekte in einen Datenrahmen einzufügen. Der Code enthält die Definition einer Fallobjekthierarchie und einer Fallklasse unter Verwendung dieser Eigenschaft: import org.apache.spark.{SparkContext, ...

2 die antwort

PySpark: Durchschnitt einer Spalte nach Verwendung der Filterfunktion

Ich verwende den folgenden Code, um das Durchschnittsalter von Personen zu ermitteln, deren Gehalt einen bestimmten Schwellenwert überschreitet. dataframe.filter(df['salary'] > 100000).agg({"avg": "age"})das Spaltenalter ist numerisch (float), ...

2 die antwort

Wie werden RDDs mit einer Python-Klasse verarbeitet?

Ich implementiere ein Modell in Spark als Python-Klasse und jedes Mal, wenn ich versuche, eine Klassenmethode einer RDD zuzuordnen, schlägt dies fehl. Mein eigentlicher Code ist komplizierter, aber diese vereinfachte Version befasst sich mit dem ...

4 die antwort

Spark: Sendung von Jackson ObjectMapper

Ich habe eine Spark-Anwendung, die Zeilen aus Dateien liest und versucht, sie mit Jackson zu deserialisieren. Um diesen Code zum Laufen zu bringen, musste ich den ObjectMapper innerhalb der Map-Operation definieren (ansonsten habe ich ...