Suchergebnisse für Anfrage "pyspark"
Wie man mehrere in einer Spalte einer RDD gespeicherte json-Tabellen so effizient wie möglich auf eine einzelne RDD-Tabelle reduziert
Funktioniert der gleichzeitige Zugriff auf das Anhängen von Zeilen mithilfe von union in einem Datenframe mithilfe des folgenden Codes ordnungsgemäß? Derzeit wird der Typ error @ angezeig from pyspark.sql.types import * schema = StructType([ ...
Pivot String-Spalte in Pyspark Dataframe
Ich habe einen einfachen Datenrahmen wie diesen: rdd = sc.parallelize( [ (0, "A", 223,"201603", "PORT"), (0, "A", 22,"201602", "PORT"), (0, "A", 422,"201601", "DOCK"), (1,"B", 3213,"201602", "DOCK"), (1,"B", 3213,"201601", "PORT"), (2,"C", ...
pyspark collect_set oder collect_list mit groupby
Wie kann ich @ verwendcollect_set odercollect_list auf einem Datenrahmen nachgroupby. zum Beispiel:df.groupby('key').collect_set('values'). Ich erhalte eine Fehlermeldung:AttributeError: 'GroupedData' object has no attribute 'collect_set'
Spark Matrix Multiplikation mit Python
Ich versuche, die Matrixmultiplikation mit Apache Spark und Python durchzuführen. Hier sind meine Daten from pyspark.mllib.linalg.distributed import RowMatrixMeine RDD von Vektoren rows_1 = sc.parallelize([[1, 2], [4, 5], [7, 8]]) rows_2 = ...
Vergleichen von Spalten in Pyspark
Ich arbeite an einem PySpark DataFrame mit n Spalten. Ich habe eine Menge von m Spalten (m <n) und meine Aufgabe ist es, die Spalte mit den Maximalwerten auszuwählen. Beispielsweise Input: PySpark DataFrame mit col_1 = [1,2,3], col_2 = [2,1,4], ...
PySpark: Mehrere Bedingungen in der when-Klausel
Ich möchte die Zellenwerte einer Datenrahmenspalte (Alter) ändern, in der sie derzeit leer ist, und ich würde dies nur tun, wenn eine andere Spalte (Überlebt) den Wert 0 für die entsprechende Zeile hat, in der sie für Alter leer ist. Wenn es in ...
Rename geschwenkte und aggregierte Spalte in PySpark Dataframe
Mit einem Datenrahmen wie folgt: from pyspark.sql.functions import avg, first rdd = sc.parallelize( [ (0, "A", 223,"201603", "PORT"), (0, "A", 22,"201602", "PORT"), (0, "A", 422,"201601", "DOCK"), (1,"B", 3213,"201602", "DOCK"), (1,"B", ...
Wie führe ich mithilfe von PySpark parallel unabhängige Transformationen durch?
Ich versuche, mit PySpark 2 Funktionen auszuführen, die vollständig unabhängige Transformationen auf einer einzelnen RDD gleichzeitig ausführen. Was sind einige Methoden, um dasselbe zu tun? def doXTransforms(sampleRDD): (X transforms) def ...
Pyspark-String in Datumsformat konvertieren
Ich habe einen Datums-Pyspark-Datenrahmen mit einer Zeichenfolgenspalte im FormatMM-dd-yyyy und ich versuche, dies in eine Datumsspalte umzuwandeln. Ich habe es versucht df.select(to_date(df.STRING_COLUMN).alias('new_date')).show() und ich ...
get value out of dataframe
n Scala kann ichget(#) odergetAs[Type](#), um Werte aus einem Datenrahmen abzurufen. Wie soll ich das in @ machpyspark? Ich habe einen DataFrame mit zwei Spalten:item(string) undsalesNum(integers). Ich mache eingroupby undmean, um einen ...