установить разницу для панд

Простой вопрос панд:

Есть лиdrop_duplicates() функциональность для удаления каждой строки, участвующей в дублировании?

Эквивалентный вопрос заключается в следующем: есть ли у pandas разница между наборами данных?

Например:

In [5]: df1 = pd.DataFrame({'col1':[1,2,3], 'col2':[2,3,4]})

In [6]: df2 = pd.DataFrame({'col1':[4,2,5], 'col2':[6,3,5]})

In [7]: df1
Out[7]: 
   col1  col2
0     1     2
1     2     3
2     3     4

In [8]: df2
Out[8]: 
   col1  col2
0     4     6
1     2     3
2     5     5

так что может быть что-то вродеdf2.set_diff(df1) будет производить это:

   col1  col2
0     4     6
2     5     5

Однако я не хочу полагаться на индексы, потому что в моем случае мне приходится иметь дело с фреймами данных, которые имеют разные индексы.

Кстати, я изначально думал о расширении текущегоdrop_duplicates() метод, но теперь я понимаю, что второй подход, использующий свойства теории множеств, был бы гораздо более полезным в целом. Оба подхода решают мою текущую проблему, все же.

Спасибо!

Ответы на вопрос(9)

Ваш ответ на вопрос