spark: как сделать dropDuplicates на фрейме данных, сохраняя строку с самой высокой отметкой времени [duplicate]

Question

Apr 14, 2016, 02:59 PM

apache-spark spark-dataframe pyspark dataframe

spark: как сделать dropDuplicates на фрейме данных, сохраняя строку с самой высокой отметкой времени [duplicate]

На этот вопрос уже есть ответ здесь:

Найти максимальный ряд на группу в Spark DataFrame 2 ответа

У меня есть случай использования, когда мне нужно было бы удалить дубликаты строк кадра данных (в этом случае дубликаты означают, что они имеют одинаковое поле 'id'), сохраняя при этом строку с наибольшим полем timestamp (unix timestamp).

Я нашел метод drop_duplicate (я использую pyspark), но никто не может контролировать, какой элемент будет сохранен.

Кто-нибудь может помочь? Спасибо заранее

spark: как сделать dropDuplicates на фрейме данных, сохраняя строку с самой высокой отметкой времени [duplicate]

Ответы на вопрос(2)

Ваш ответ на вопрос

Популярные вопросы

Вы очень активны! Это здорово!

spark: как сделать dropDuplicates на фрейме данных, сохраняя строку с самой высокой отметкой времени [duplicate]

Ответы на вопрос(2)

Ваш ответ на вопрос

Популярные вопросы