Как идентифицировать первое вхождение повторяющихся строк в пандах Python Dataframe

Question

Feb 19, 2013, 09:28 AM

Как идентифицировать первое вхождение повторяющихся строк в пандах Python Dataframe

У меня есть DataFrame панды с дублирующимися значениями для набора столбцов. Например:

df = pd.DataFrame({'Column1': {0: 1, 1: 2, 2: 3}, 'Column2': {0: 'ABC', 1: 'XYZ', 2: 'ABC'}, 'Column3': {0: 'DEF', 1: 'DEF', 2: 'DEF'}, 'Column4': {0: 10, 1: 40, 2: 10})

In [2]: df
Out[2]: 
   Column1 Column2 Column3  Column4 is_duplicated  dup_index
0        1     ABC     DEF       10         False          0
1        2     XYZ     DEF       40         False          1
2        3     ABC     DEF       10          True          0

Строка (1) и (3) одинаковы. По сути, строка (3) является дубликатом строки (1).

Я ищу следующий вывод:

Is_Duplicateс указанием, является ли строка дубликатом или нет [может быть выполнено с помощью «дублированного» метода в столбцах данных (Column2, Column3 и Column4)]

Dup_Index исходный индекс дубликата строки.

In [3]: df
Out[3]: 
   Column1 Column2 Column3  Column4  Is_Duplicate  Dup_Index
0        1     ABC     DEF       10         False          0
1        2     XYZ     DEF       40         False          1
2        3     ABC     DEF       10          True          0

Комментировать

Как идентифицировать первое вхождение повторяющихся строк в пандах Python Dataframe

Ответы на вопрос(2)

Ваш ответ на вопрос

Популярные вопросы