Получите первые n в каждой группе DataFrame в pyspark
В pyspark есть DataFrame с данными, как показано ниже:
user_id object_id score
user_1 object_1 3
user_1 object_1 1
user_1 object_2 2
user_2 object_1 5
user_2 object_2 2
user_2 object_2 6
Я ожидаю, что в каждой группе будет возвращено 2 записи с одинаковым идентификатором user_id, которые должны иметь самый высокий балл. Следовательно, результат должен выглядеть следующим образом:
user_id object_id score
user_1 object_1 3
user_1 object_2 2
user_2 object_2 6
user_2 object_1 5
Я действительно новичок в pyspark. Может ли кто-нибудь дать мне фрагмент кода или портал с соответствующей документацией по этой проблеме? Большое спасибо!