spark: как сделать dropDuplicates на фрейме данных, сохраняя строку с самой высокой отметкой времени [duplicate]
На этот вопрос уже есть ответ здесь:
Найти максимальный ряд на группу в Spark DataFrame 2 ответаУ меня есть случай использования, когда мне нужно было бы удалить дубликаты строк кадра данных (в этом случае дубликаты означают, что они имеют одинаковое поле 'id'), сохраняя при этом строку с наибольшим полем timestamp (unix timestamp).
Я нашел метод drop_duplicate (я использую pyspark), но никто не может контролировать, какой элемент будет сохранен.
Кто-нибудь может помочь? Спасибо заранее