установить разницу для панд
Простой вопрос панд:
Есть лиdrop_duplicates()
функциональность для удаления каждой строки, участвующей в дублировании?
Эквивалентный вопрос заключается в следующем: есть ли у pandas разница между наборами данных?
Например:
In [5]: df1 = pd.DataFrame({'col1':[1,2,3], 'col2':[2,3,4]})
In [6]: df2 = pd.DataFrame({'col1':[4,2,5], 'col2':[6,3,5]})
In [7]: df1
Out[7]:
col1 col2
0 1 2
1 2 3
2 3 4
In [8]: df2
Out[8]:
col1 col2
0 4 6
1 2 3
2 5 5
так что может быть что-то вродеdf2.set_diff(df1)
будет производить это:
col1 col2
0 4 6
2 5 5
Однако я не хочу полагаться на индексы, потому что в моем случае мне приходится иметь дело с фреймами данных, которые имеют разные индексы.
Кстати, я изначально думал о расширении текущегоdrop_duplicates()
метод, но теперь я понимаю, что второй подход, использующий свойства теории множеств, был бы гораздо более полезным в целом. Оба подхода решают мою текущую проблему, все же.
Спасибо!