Получите первые n в каждой группе DataFrame в pyspark

Question

Jul 15, 2016, 03:49 PM

apache-spark-sql apache-spark pyspark dataframe python

Получите первые n в каждой группе DataFrame в pyspark

В pyspark есть DataFrame с данными, как показано ниже:

user_id object_id score
user_1  object_1  3
user_1  object_1  1
user_1  object_2  2
user_2  object_1  5
user_2  object_2  2
user_2  object_2  6

Я ожидаю, что в каждой группе будет возвращено 2 записи с одинаковым идентификатором user_id, которые должны иметь самый высокий балл. Следовательно, результат должен выглядеть следующим образом:

user_id object_id score
user_1  object_1  3
user_1  object_2  2
user_2  object_2  6
user_2  object_1  5

Я действительно новичок в pyspark. Может ли кто-нибудь дать мне фрагмент кода или портал с соответствующей документацией по этой проблеме? Большое спасибо!

Получите первые n в каждой группе DataFrame в pyspark

Ответы на вопрос(2)

Ваш ответ на вопрос

Популярные вопросы

Вы очень активны! Это здорово!

Получите первые n в каждой группе DataFrame в pyspark

Ответы на вопрос(2)

Ваш ответ на вопрос

Популярные вопросы