от
тим, у меня естьDataFrame
с колонкой для пользователей и другой колонкой для слов, которые они написали:
Row(user='Bob', word='hello')
Row(user='Bob', word='world')
Row(user='Mary', word='Have')
Row(user='Mary', word='a')
Row(user='Mary', word='nice')
Row(user='Mary', word='day')
Я хотел бы объединитьword
столбец в вектор:
Row(user='Bob', words=['hello','world'])
Row(user='Mary', words=['Have','a','nice','day'])
Кажется, я не могу использовать какие-либо функции группировки Sparks, потому что они ожидают последующего шага агрегации. Мой пример использования - я хочу передать эти данные вWord2Vec
не использовать другие агрегаты Spark.