Crie um quadro de dados no pyspark que contenha uma única coluna de tuplas
Eu tenho um RDD que contém o seguinte [('coluna 1', valor), ('coluna 2', valor), ('coluna 3', valor), ..., ('coluna 100', valor)]. Quero criar um quadro de dados que contenha uma única coluna com tuplas.
O mais próximo que cheguei é:
schema = StructType((StructField("char", StringType(), False), (StructField("count", IntegerType(), False))))
my_udf = udf(lambda w, c: (w,c), schema)
e depois
df.select(my_udf('char', 'int').alias('char_int'))
mas isso produz um quadro de dados com uma coluna de listas, não tuplas.