definir diferença para pandas

Question

Aug 12, 2013, 08:29 AM

definir diferença para pandas

Uma pergunta simples sobre pandas:

Tem algumadrop_duplicates() funcionalidade para soltar todas as linhas envolvidas na duplicação?

Uma pergunta equivalente é a seguinte: Os pandas têm uma diferença fixa para quadros de dados?

Por exemplo:

In [5]: df1 = pd.DataFrame({'col1':[1,2,3], 'col2':[2,3,4]})

In [6]: df2 = pd.DataFrame({'col1':[4,2,5], 'col2':[6,3,5]})

In [7]: df1
Out[7]: 
   col1  col2
0     1     2
1     2     3
2     3     4

In [8]: df2
Out[8]: 
   col1  col2
0     4     6
1     2     3
2     5     5

então talvez algo comodf2.set_diff(df1) vai produzir isso:

   col1  col2
0     4     6
2     5     5

No entanto, não quero depender de índices porque, no meu caso, tenho que lidar com quadros de dados com índices distintos.

A propósito, pensei inicialmente em uma extensão da correntedrop_duplicates() método, mas agora percebo que a segunda abordagem usando propriedades da teoria dos conjuntos seria muito mais útil em geral. Ambas as abordagens resolvem meu problema atual.

Obrigado!