установить разницу для панд

Question

Aug 12, 2013, 08:29 AM

установить разницу для панд

Простой вопрос панд:

Есть лиdrop_duplicates() функциональность для удаления каждой строки, участвующей в дублировании?

Эквивалентный вопрос заключается в следующем: есть ли у pandas разница между наборами данных?

Например:

In [5]: df1 = pd.DataFrame({'col1':[1,2,3], 'col2':[2,3,4]})

In [6]: df2 = pd.DataFrame({'col1':[4,2,5], 'col2':[6,3,5]})

In [7]: df1
Out[7]: 
   col1  col2
0     1     2
1     2     3
2     3     4

In [8]: df2
Out[8]: 
   col1  col2
0     4     6
1     2     3
2     5     5

так что может быть что-то вродеdf2.set_diff(df1) будет производить это:

   col1  col2
0     4     6
2     5     5

Однако я не хочу полагаться на индексы, потому что в моем случае мне приходится иметь дело с фреймами данных, которые имеют разные индексы.

Кстати, я изначально думал о расширении текущегоdrop_duplicates() метод, но теперь я понимаю, что второй подход, использующий свойства теории множеств, был бы гораздо более полезным в целом. Оба подхода решают мою текущую проблему, все же.

Спасибо!

установить разницу для панд

Ответы на вопрос(9)

Ваш ответ на вопрос

Популярные вопросы

Вы очень активны! Это здорово!

установить разницу для панд

Ответы на вопрос(9)

Ваш ответ на вопрос

Популярные вопросы