GroupByKey y cree listas de valores pyspark sql dataframe
Entonces tengo un marco de datos de chispa que se parece a:
a | b | c
5 | 2 | 1
5 | 4 | 3
2 | 4 | 2
2 | 3 | 7
Y quiero agrupar por columnaa, cree una lista de valores de la columna b, y olvídese de c. El marco de datos de salida sería:
a | b_list
5 | (2,4)
2 | (4,3)
¿Cómo haría para hacer esto con un marco de datos pyspark sql?
¡Gracias! :)