definir diferença para pandas
Uma pergunta simples sobre pandas:
Tem algumadrop_duplicates()
funcionalidade para soltar todas as linhas envolvidas na duplicação?
Uma pergunta equivalente é a seguinte: Os pandas têm uma diferença fixa para quadros de dados?
Por exemplo:
In [5]: df1 = pd.DataFrame({'col1':[1,2,3], 'col2':[2,3,4]})
In [6]: df2 = pd.DataFrame({'col1':[4,2,5], 'col2':[6,3,5]})
In [7]: df1
Out[7]:
col1 col2
0 1 2
1 2 3
2 3 4
In [8]: df2
Out[8]:
col1 col2
0 4 6
1 2 3
2 5 5
então talvez algo comodf2.set_diff(df1)
vai produzir isso:
col1 col2
0 4 6
2 5 5
No entanto, não quero depender de índices porque, no meu caso, tenho que lidar com quadros de dados com índices distintos.
A propósito, pensei inicialmente em uma extensão da correntedrop_duplicates()
método, mas agora percebo que a segunda abordagem usando propriedades da teoria dos conjuntos seria muito mais útil em geral. Ambas as abordagens resolvem meu problema atual.
Obrigado!