Suchergebnisse für Anfrage "pyspark"

0 die antwort

Wie man mehrere in einer Spalte einer RDD gespeicherte json-Tabellen so effizient wie möglich auf eine einzelne RDD-Tabelle reduziert

Funktioniert der gleichzeitige Zugriff auf das Anhängen von Zeilen mithilfe von union in einem Datenframe mithilfe des folgenden Codes ordnungsgemäß? Derzeit wird der Typ error @ angezeig from pyspark.sql.types import * schema = StructType([ ...

2 die antwort

Pivot String-Spalte in Pyspark Dataframe

Ich habe einen einfachen Datenrahmen wie diesen: rdd = sc.parallelize( [ (0, "A", 223,"201603", "PORT"), (0, "A", 22,"201602", "PORT"), (0, "A", 422,"201601", "DOCK"), (1,"B", 3213,"201602", "DOCK"), (1,"B", 3213,"201601", "PORT"), (2,"C", ...

2 die antwort

pyspark collect_set oder collect_list mit groupby

Wie kann ich @ verwendcollect_set odercollect_list auf einem Datenrahmen nachgroupby. zum Beispiel:df.groupby('key').collect_set('values'). Ich erhalte eine Fehlermeldung:AttributeError: 'GroupedData' object has no attribute 'collect_set'

TOP-Veröffentlichungen

2 die antwort

Spark Matrix Multiplikation mit Python

Ich versuche, die Matrixmultiplikation mit Apache Spark und Python durchzuführen. Hier sind meine Daten from pyspark.mllib.linalg.distributed import RowMatrixMeine RDD von Vektoren rows_1 = sc.parallelize([[1, 2], [4, 5], [7, 8]]) rows_2 = ...

8 die antwort

Vergleichen von Spalten in Pyspark

Ich arbeite an einem PySpark DataFrame mit n Spalten. Ich habe eine Menge von m Spalten (m <n) und meine Aufgabe ist es, die Spalte mit den Maximalwerten auszuwählen. Beispielsweise Input: PySpark DataFrame mit col_1 = [1,2,3], col_2 = [2,1,4], ...

4 die antwort

PySpark: Mehrere Bedingungen in der when-Klausel

Ich möchte die Zellenwerte einer Datenrahmenspalte (Alter) ändern, in der sie derzeit leer ist, und ich würde dies nur tun, wenn eine andere Spalte (Überlebt) den Wert 0 für die entsprechende Zeile hat, in der sie für Alter leer ist. Wenn es in ...

8 die antwort

Rename geschwenkte und aggregierte Spalte in PySpark Dataframe

Mit einem Datenrahmen wie folgt: from pyspark.sql.functions import avg, first rdd = sc.parallelize( [ (0, "A", 223,"201603", "PORT"), (0, "A", 22,"201602", "PORT"), (0, "A", 422,"201601", "DOCK"), (1,"B", 3213,"201602", "DOCK"), (1,"B", ...

2 die antwort

Wie führe ich mithilfe von PySpark parallel unabhängige Transformationen durch?

Ich versuche, mit PySpark 2 Funktionen auszuführen, die vollständig unabhängige Transformationen auf einer einzelnen RDD gleichzeitig ausführen. Was sind einige Methoden, um dasselbe zu tun? def doXTransforms(sampleRDD): (X transforms) def ...

8 die antwort

Pyspark-String in Datumsformat konvertieren

Ich habe einen Datums-Pyspark-Datenrahmen mit einer Zeichenfolgenspalte im FormatMM-dd-yyyy und ich versuche, dies in eine Datumsspalte umzuwandeln. Ich habe es versucht df.select(to_date(df.STRING_COLUMN).alias('new_date')).show() und ich ...

4 die antwort

get value out of dataframe

n Scala kann ichget(#) odergetAs[Type](#), um Werte aus einem Datenrahmen abzurufen. Wie soll ich das in @ machpyspark? Ich habe einen DataFrame mit zwei Spalten:item(string) undsalesNum(integers). Ich mache eingroupby undmean, um einen ...