Suchergebnisse für Anfrage "spark-dataframe"
Convert Spark DataFrame-Spalte in Python-Liste
Ich arbeite an einem Datenrahmen mit zwei Spalten, mvv und count. +---+-----+ |mvv|count| +---+-----+ | 1 | 5 | | 2 | 9 | | 3 | 3 | | 4 | 1 |i möchte zwei Listen erhalten, die MVV-Werte und Zählwerte enthalten. Etwas wi mvv = [1,2,3,4] count = ...
Spark DataFrame: behält groupBy nach orderBy diese Reihenfolge bei?
Ich habe einen Spark 2.0-Datenrahmenexample mit der folgenden Struktur: id, hour, count id1, 0, 12 id1, 1, 55 .. id1, 23, 44 id2, 0, 12 id2, 1, 89 .. id2, 23, 34 etc. Es enthält 24 Einträge für jede ID (einen für jede Stunde des Tages) und wird ...
Pyspark dataframe LIKE operator
Was ist das Äquivalent in Pyspark für den LIKE-Operator? Zum Beispiel würde ich gerne machen: SELECT * FROM table WHERE column LIKE "*somestring*";nach so etwas einfachem suchen (aber das funktioniert ...
Beste Möglichkeit, den Maximalwert in einer Spark-Datenrahmenspalte zu ermitteln
Ich versuche, den besten Weg zu finden, um den größten Wert in einer Spark-Datenrahmenspalte zu erhalten. Betrachten Sie das folgende Beispiel: df = spark.createDataFrame([(1., 4.), (2., 5.), (3., 6.)], ["A", "B"]) df.show() Welche ...
Spezifische Partitionen in der Spark-Dataframe-Schreibmethode überschreiben
Ich möchte bestimmte Partitionen überschreiben, anstatt alle in Spark. Ich versuche den folgenden Befehl: df.write.orc('maprfs:///hdfs-base-path','overwrite',partitionBy='col4')wobei df ein Datenrahmen ist, dessen inkrementelle Daten ...