Erstellen Sie einen Datenrahmen in Pyspark, der eine einzelne Spalte mit Tupeln enthält

Ich habe eine RDD, die Folgendes enthält: [('Spalte 1', Wert), ('Spalte 2', Wert), ('Spalte 3', Wert), ..., ('Spalte 100', Wert)] . Ich möchte einen Datenrahmen erstellen, der eine einzelne Spalte mit Tupeln enthält.

Der nächste, den ich bekommen habe, ist:

schema = StructType((StructField("char", StringType(), False), (StructField("count", IntegerType(), False))))
    my_udf = udf(lambda w, c: (w,c), schema)

und dan

df.select(my_udf('char', 'int').alias('char_int'))

, aber dies erzeugt einen Datenrahmen mit einer Spalte von Listen, nicht Tupeln.

Antworten auf die Frage(2)

Ihre Antwort auf die Frage