spark: как сделать dropDuplicates на фрейме данных, сохраняя строку с самой высокой отметкой времени [duplicate]

На этот вопрос уже есть ответ здесь:

Найти максимальный ряд на группу в Spark DataFrame 2 ответа

У меня есть случай использования, когда мне нужно было бы удалить дубликаты строк кадра данных (в этом случае дубликаты означают, что они имеют одинаковое поле 'id'), сохраняя при этом строку с наибольшим полем timestamp (unix timestamp).

Я нашел метод drop_duplicate (я использую pyspark), но никто не может контролировать, какой элемент будет сохранен.

Кто-нибудь может помочь? Спасибо заранее

Ответы на вопрос(2)

Ваш ответ на вопрос