Erstellen Sie einen Datenrahmen in Pyspark, der eine einzelne Spalte mit Tupeln enthält
Ich habe eine RDD, die Folgendes enthält: [('Spalte 1', Wert), ('Spalte 2', Wert), ('Spalte 3', Wert), ..., ('Spalte 100', Wert)] . Ich möchte einen Datenrahmen erstellen, der eine einzelne Spalte mit Tupeln enthält.
Der nächste, den ich bekommen habe, ist:
schema = StructType((StructField("char", StringType(), False), (StructField("count", IntegerType(), False))))
my_udf = udf(lambda w, c: (w,c), schema)
und dan
df.select(my_udf('char', 'int').alias('char_int'))
, aber dies erzeugt einen Datenrahmen mit einer Spalte von Listen, nicht Tupeln.