Suchergebnisse für Anfrage "spark-dataframe"

2 die antwort

Mit Spark DataFrame unterschiedliche Werte in einer Spalte abrufen

Verwenden von Spark 1.6.1 Ich muss bestimmte Werte für eine Spalte abrufen und dann eine bestimmte Transformation darüber durchführen. Die Spalte enthält mehr als 50 Millionen Datensätze und kann größer werden. Ich verstehe, dass ein @ zu ...

2 die antwort

So filtern Sie Daten mithilfe von Fensterfunktionen in spark

Ich habe folgende Daten: rowid uid time code 1 1 5 a 2 1 6 b 3 1 7 c 4 2 8 a 5 2 9 c 6 2 9 c 7 2 10 c 8 2 11 a 9 2 12 c Jetzt wollte ich die Daten so filtern, dass ich die Zeilen 6 und 7 entfernen kann, da ich für eine bestimmte UID nur eine ...

6 die antwort

Lesen Sie aus einer Hive-Tabelle und schreiben Sie mit spark sql @ darauf zurüc

Ich lese eine Hive-Tabelle mit Spark SQL und ordne sie einer Scala zu. val x = sqlContext.sql("select * from some_table")Dann bearbeite ich den Datenrahmen x und erstelle schließlich einen Datenrahmen y, der das genaue Schema wie die Tabelle ...

TOP-Veröffentlichungen

10 die antwort

Convert Spark DataFrame-Spalte in Python-Liste

Ich arbeite an einem Datenrahmen mit zwei Spalten, mvv und count. +---+-----+ |mvv|count| +---+-----+ | 1 | 5 | | 2 | 9 | | 3 | 3 | | 4 | 1 |i möchte zwei Listen erhalten, die MVV-Werte und Zählwerte enthalten. Etwas wi mvv = [1,2,3,4] count = ...

18 die antwort

Spezifische Partitionen in der Spark-Dataframe-Schreibmethode überschreiben

Ich möchte bestimmte Partitionen überschreiben, anstatt alle in Spark. Ich versuche den folgenden Befehl: df.write.orc('maprfs:///hdfs-base-path','overwrite',partitionBy='col4')wobei df ein Datenrahmen ist, dessen inkrementelle Daten ...

6 die antwort

Spark-Datenrahmen konvertieren verschachteltes JSON in separate Spalten

Ich habe einen Stream von JSONs mit folgender Struktur, die in dataframe konvertiert werden. { "a": 3936, "b": 123, "c": "34", "attributes": { "d": "146", "e": "12", "f": "23" } }Die Show-Funktionen des Datenrahmens führen zu folgender ...

8 die antwort

Spark Dataframe validiert Spaltennamen für Parkettschreibvorgänge (Scala)

Ich verarbeite Ereignisse mit Dataframes, die aus einem Stream von JSON-Ereignissen konvertiert wurden, der schließlich als Parkettformat ausgegeben wird. Einige der JSON-Ereignisse enthalten jedoch Leerzeichen in den Schlüsseln, die ich ...

2 die antwort

Wie wird PySpark DataFrame gehasht, um einen Float zurückzugeben?

Sagen wir, ich habe Funken dataframe +--------+-----+ | letter|count| +--------+-----+ | a| 2| | b| 2| | c| 1| +--------+-----+Dann wollte ich meinen finden. So tat ic df = df.groupBy().mean('letter') welche einen Datenrahmen ...

2 die antwort

Vorwärts fehlende Werte in Spark / Python füllen

Ich versuche, fehlende Werte in meinem Spark-Datenframe mit dem vorherigen Nicht-Null-Wert (falls vorhanden) zu füllen. Ich habe so etwas in Python / Pandas gemacht, aber meine Daten sind zu groß für Pandas (auf einem kleinen Cluster) und ich ...

10 die antwort

Wie erstelle ich einen DataFrame aus der Liste der Iterables von Scala?

Ich habe den folgenden Scala-Wert: val values: List[Iterable[Any]] = Traces().evaluate(features).toListund ich möchte es in einen DataFrame konvertieren. Wenn ich Folgendes versuche: sqlContext.createDataFrame(values)Ich habe diesen Fehler ...