Suchergebnisse für Anfrage "apache-spark"
SparkSQL: Wie gehe ich mit Nullwerten in einer benutzerdefinierten Funktion um?
Gegeben Tabelle 1 mit einer Spalte "x" vom Typ String. Ich möchte Tabelle 2 mit einer Spalte "y" erstellen, die eine ganzzahlige Darstellung der in "x" angegebenen Datumszeichenfolgen ist. Wesentlic soll @ behaltnull Werte in Spalte ...
Spark und SparkSQL: Wie kann man die Fensterfunktion imitieren?
BeschreibunGab einen Datenrahmendf id | date --------------- 1 | 2015-09-01 2 | 2015-09-01 1 | 2015-09-03 1 | 2015-09-04 2 | 2015-09-04Ich möchte einen laufenden Zähler oder Index erstellen, gruppiert mit der gleichen ID undsortiert nach Datum ...
Was bedeutet setMaster `local [*]` in spark?
Ich habe einen Code gefunden, mit dem ich den Spark lokal starten kann: val conf = new SparkConf().setAppName("test").setMaster("local[*]") val ctx = new SparkContext(conf)Was bewirkt das[*] bedeuten
DataFrame Join-Optimierung - Broadcast Hash Join
Ich versuche, zwei DataFrames effektiv zu verbinden, von denen einer groß und der andere etwas kleiner ist. Gibt es eine Möglichkeit, all dieses Mischen zu vermeiden? Ich kann nicht @ setzautoBroadCastJoinThreshold, weil es nur Ganzzahlen ...
Wird es ein Szenario geben, in dem Spark-RDDs die Unveränderlichkeit nicht erfüllen ?
Spark RDDs sind unveränderlich, fehlertolerant und belastbar. Erfüllen RDDs die Unveränderlichkeit in allen Szenarien? Oder gibt es einen Fall, in dem RDD die Unveränderlichkeit möglicherweise nicht befriedigt, sei es im Streaming oder im Core?
Fehler beim Ausführen eines Jobs auf Spark 1.4.0 mit Jackson-Modul mit ScalaObjectMapper
Ich führe einen Spark-Job aus, der in Scala 2.10.4 geschrieben wurde und auf einem Spark 1.4.0-Cluster (basierend auf HDFS und verwaltet mit YARN) und mit Jackson-Modulen der Version 2.6.1 auf dem Maven-Repository ausgeführt wird. Wenn der Code ...
Wie definiere ich ein Schema für einen benutzerdefinierten Typ in Spark SQL?
Der folgende Beispielcode versucht, einige Fallobjekte in einen Datenrahmen einzufügen. Der Code enthält die Definition einer Fallobjekthierarchie und einer Fallklasse unter Verwendung dieser Eigenschaft: import org.apache.spark.{SparkContext, ...
PySpark: Durchschnitt einer Spalte nach Verwendung der Filterfunktion
Ich verwende den folgenden Code, um das Durchschnittsalter von Personen zu ermitteln, deren Gehalt einen bestimmten Schwellenwert überschreitet. dataframe.filter(df['salary'] > 100000).agg({"avg": "age"})das Spaltenalter ist numerisch (float), ...
Wie werden RDDs mit einer Python-Klasse verarbeitet?
Ich implementiere ein Modell in Spark als Python-Klasse und jedes Mal, wenn ich versuche, eine Klassenmethode einer RDD zuzuordnen, schlägt dies fehl. Mein eigentlicher Code ist komplizierter, aber diese vereinfachte Version befasst sich mit dem ...
Spark: Sendung von Jackson ObjectMapper
Ich habe eine Spark-Anwendung, die Zeilen aus Dateien liest und versucht, sie mit Jackson zu deserialisieren. Um diesen Code zum Laufen zu bringen, musste ich den ObjectMapper innerhalb der Map-Operation definieren (ansonsten habe ich ...